logo móvil
Contáctanos

Análisis de medida de rendimiento en aprendizaje con exploración UCB

Autores: Ye, Weicheng; Chen, Dangxing

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Análisis de medida de rendimiento en aprendizaje con exploración UCB


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Aprendizaje por refuerzo basado en modelos
Algoritmos de RL sin modelo
-aprendizaje
Banda de Upper Confidence Bound (UCB)
Bonificaciones de exploración
Arrepentimiento acumulativo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 32

Citaciones: Sin citaciones


Descripción
Comparadas con los enfoques de Aprendizaje por Refuerzo (RL) basados en modelos, los algoritmos de RL sin modelo, como -learning, requieren menos espacio y son más expresivos, ya que especificar funciones de valor o políticas es más flexible que especificar el modelo para el entorno. Esto hace que los algoritmos sin modelo sean más prevalentes en el RL profundo moderno. Sin embargo, los métodos basados en modelos pueden extraer la información de los datos disponibles de manera más eficiente. El vendaje de Upper Confidence Bound (UCB) puede mejorar los bonos de exploración, y por lo tanto aumentar la eficiencia de los datos en el marco de -learning. El arrepentimiento acumulativo del algoritmo de -learning con una política de exploración UCB en el Proceso de Decisión de Markov episódico ha sido explorado recientemente en el entorno subyacente de espacio de estado-acción finito. En este documento, estudiamos el límite de arrepentimiento del algoritmo de -learning con exploración UCB en el escenario de espacio métrico compacto de estado-acción. Presentamos un algoritmo que discretiza de manera adaptativa el espacio de estado-acción continuo y actualiza de forma iterativa los valores de -values. El algoritmo es capaz de optimizar eficientemente las recompensas y minimizar el arrepentimiento acumulativo.

Otros recursos que podrían interesarte

Temas Virtualpro