Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente
Autores: Zhou, Ziyun; Shang, Jingwei; Li, Yimang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje por refuerzo jerárquico
Máquinas de recompensa
Ordenamiento topológico
Submetas
Eficiencia de aprendizaje
Jerarquía de tareas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 54
Citaciones: Sin citaciones
El aprendizaje por refuerzo jerárquico (HRL) ofrece una estructura jerárquica para organizar tareas, permitiendo a los agentes aprender y tomar decisiones de forma autónoma en entornos complejos. Sin embargo, los enfoques tradicionales de HRL enfrentan limitaciones en el manejo efectivo de tareas complejas. Las máquinas de recompensa, que especifican objetivos de alto nivel y recompensas asociadas para sub-objetivos, han sido introducidas para abordar estas limitaciones al facilitar la comprensión y el razonamiento del agente con respecto a la jerarquía de tareas. En este documento, proponemos un enfoque novedoso para mejorar el rendimiento de HRL a través del cálculo de potenciales ordenados topológicamente para máquinas de recompensa. Al aprovechar la estructura topológica de la jerarquía de tareas, nuestro método determina eficientemente los potenciales para diferentes sub-objetivos. Esta clasificación topológica permite al agente priorizar acciones que conduzcan al logro de objetivos de nivel superior, mejorando el proceso de aprendizaje. Para evaluar la eficacia de nuestro enfoque, realizamos experimentos en el entorno de grid-world con OpenAI-Gym. Los resultados muestran la superioridad de nuestro método propuesto sobre las técnicas tradicionales de HRL y los enfoques de aprendizaje por refuerzo basados en máquinas de recompensa en términos de eficiencia de aprendizaje y rendimiento general de la tarea.
Descripción
El aprendizaje por refuerzo jerárquico (HRL) ofrece una estructura jerárquica para organizar tareas, permitiendo a los agentes aprender y tomar decisiones de forma autónoma en entornos complejos. Sin embargo, los enfoques tradicionales de HRL enfrentan limitaciones en el manejo efectivo de tareas complejas. Las máquinas de recompensa, que especifican objetivos de alto nivel y recompensas asociadas para sub-objetivos, han sido introducidas para abordar estas limitaciones al facilitar la comprensión y el razonamiento del agente con respecto a la jerarquía de tareas. En este documento, proponemos un enfoque novedoso para mejorar el rendimiento de HRL a través del cálculo de potenciales ordenados topológicamente para máquinas de recompensa. Al aprovechar la estructura topológica de la jerarquía de tareas, nuestro método determina eficientemente los potenciales para diferentes sub-objetivos. Esta clasificación topológica permite al agente priorizar acciones que conduzcan al logro de objetivos de nivel superior, mejorando el proceso de aprendizaje. Para evaluar la eficacia de nuestro enfoque, realizamos experimentos en el entorno de grid-world con OpenAI-Gym. Los resultados muestran la superioridad de nuestro método propuesto sobre las técnicas tradicionales de HRL y los enfoques de aprendizaje por refuerzo basados en máquinas de recompensa en términos de eficiencia de aprendizaje y rendimiento general de la tarea.