Exploración Mejorada en Entornos de Aprendizaje por Refuerzo con Selección de Acciones de Baja Discrepancia
Autores: Carden, Stephen W.; Lindborg, Jedidiah O.; Utic, Zheni
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Exploración Mejorada en Entornos de Aprendizaje por Refuerzo con Selección de Acciones de Baja Discrepancia
Categoría
Matemáticas
Subcategoría
Matemáticas aplicadas
Palabras clave
Aprendizaje por refuerzo
Estrategia de exploración
Agente de decisión
Dinámicas continuas
Selección de acciones de baja discrepancia
Entornos de referencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
El aprendizaje por refuerzo (RL) es un subdominio del aprendizaje automático que se ocupa de lograr un comportamiento óptimo mediante la interacción con un entorno desconocido y potencialmente estocástico. La estrategia de exploración para elegir acciones es un componente importante para permitir que el agente de decisión descubra cómo obtener altas recompensas. Si se construye bien, puede reducir el tiempo de aprendizaje del agente de decisión. La exploración en problemas discretos ha sido bien estudiada, pero hay menos estrategias aplicables a dinámicas continuas. En este artículo, proponemos un proceso de Selección de Acción de Baja Discrepancia (LDAS), una nueva estrategia de exploración para entornos con estados y acciones continuas. Este algoritmo se centra en priorizar regiones desconocidas del espacio estado-acción con la intención de encontrar acciones ideales más rápido que la selección de acciones pseudoaleatorias. Los resultados de la experimentación con tres entornos de referencia elucidarán las situaciones en las que LDAS es superior e introducirán una métrica para cuantificar la calidad de la exploración.
Descripción
El aprendizaje por refuerzo (RL) es un subdominio del aprendizaje automático que se ocupa de lograr un comportamiento óptimo mediante la interacción con un entorno desconocido y potencialmente estocástico. La estrategia de exploración para elegir acciones es un componente importante para permitir que el agente de decisión descubra cómo obtener altas recompensas. Si se construye bien, puede reducir el tiempo de aprendizaje del agente de decisión. La exploración en problemas discretos ha sido bien estudiada, pero hay menos estrategias aplicables a dinámicas continuas. En este artículo, proponemos un proceso de Selección de Acción de Baja Discrepancia (LDAS), una nueva estrategia de exploración para entornos con estados y acciones continuas. Este algoritmo se centra en priorizar regiones desconocidas del espacio estado-acción con la intención de encontrar acciones ideales más rápido que la selección de acciones pseudoaleatorias. Los resultados de la experimentación con tres entornos de referencia elucidarán las situaciones en las que LDAS es superior e introducirán una métrica para cuantificar la calidad de la exploración.