logo móvil
Contáctanos

Exploración Mejorada en Entornos de Aprendizaje por Refuerzo con Selección de Acciones de Baja Discrepancia

Autores: Carden, Stephen W.; Lindborg, Jedidiah O.; Utic, Zheni

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Exploración Mejorada en Entornos de Aprendizaje por Refuerzo con Selección de Acciones de Baja Discrepancia


Categoría

Matemáticas

Subcategoría

Matemáticas aplicadas

Palabras clave

Aprendizaje por refuerzo
Estrategia de exploración
Agente de decisión
Dinámicas continuas
Selección de acciones de baja discrepancia
Entornos de referencia

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo (RL) es un subdominio del aprendizaje automático que se ocupa de lograr un comportamiento óptimo mediante la interacción con un entorno desconocido y potencialmente estocástico. La estrategia de exploración para elegir acciones es un componente importante para permitir que el agente de decisión descubra cómo obtener altas recompensas. Si se construye bien, puede reducir el tiempo de aprendizaje del agente de decisión. La exploración en problemas discretos ha sido bien estudiada, pero hay menos estrategias aplicables a dinámicas continuas. En este artículo, proponemos un proceso de Selección de Acción de Baja Discrepancia (LDAS), una nueva estrategia de exploración para entornos con estados y acciones continuas. Este algoritmo se centra en priorizar regiones desconocidas del espacio estado-acción con la intención de encontrar acciones ideales más rápido que la selección de acciones pseudoaleatorias. Los resultados de la experimentación con tres entornos de referencia elucidarán las situaciones en las que LDAS es superior e introducirán una métrica para cuantificar la calidad de la exploración.

Otros recursos que podrían interesarte

Temas Virtualpro