Análisis de medida de rendimiento en aprendizaje con exploración UCB

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Análisis de medida de rendimiento en aprendizaje con exploración UCB

Autores: Ye, Weicheng; Chen, Dangxing

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Análisis de medida de rendimiento en aprendizaje con exploración UCB

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo basado en modelos

Algoritmos de RL sin modelo

-aprendizaje

Banda de Upper Confidence Bound (UCB)

Bonificaciones de exploración

Arrepentimiento acumulativo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones

Comparadas con los enfoques de Aprendizaje por Refuerzo (RL) basados en modelos, los algoritmos de RL sin modelo, como -learning, requieren menos espacio y son más expresivos, ya que especificar funciones de valor o políticas es más flexible que especificar el modelo para el entorno. Esto hace que los algoritmos sin modelo sean más prevalentes en el RL profundo moderno. Sin embargo, los métodos basados en modelos pueden extraer la información de los datos disponibles de manera más eficiente. El vendaje de Upper Confidence Bound (UCB) puede mejorar los bonos de exploración, y por lo tanto aumentar la eficiencia de los datos en el marco de -learning. El arrepentimiento acumulativo del algoritmo de -learning con una política de exploración UCB en el Proceso de Decisión de Markov episódico ha sido explorado recientemente en el entorno subyacente de espacio de estado-acción finito. En este documento, estudiamos el límite de arrepentimiento del algoritmo de -learning con exploración UCB en el escenario de espacio métrico compacto de estado-acción. Presentamos un algoritmo que discretiza de manera adaptativa el espacio de estado-acción continuo y actualiza de forma iterativa los valores de -values. El algoritmo es capaz de optimizar eficientemente las recompensas y minimizar el arrepentimiento acumulativo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro