logo móvil
Contáctanos

Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente

Autores: Zhou, Ziyun; Shang, Jingwei; Li, Yimang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo jerárquico
Máquinas de recompensa
Ordenamiento topológico
Submetas
Eficiencia de aprendizaje
Jerarquía de tareas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 54

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo jerárquico (HRL) ofrece una estructura jerárquica para organizar tareas, permitiendo a los agentes aprender y tomar decisiones de forma autónoma en entornos complejos. Sin embargo, los enfoques tradicionales de HRL enfrentan limitaciones en el manejo efectivo de tareas complejas. Las máquinas de recompensa, que especifican objetivos de alto nivel y recompensas asociadas para sub-objetivos, han sido introducidas para abordar estas limitaciones al facilitar la comprensión y el razonamiento del agente con respecto a la jerarquía de tareas. En este documento, proponemos un enfoque novedoso para mejorar el rendimiento de HRL a través del cálculo de potenciales ordenados topológicamente para máquinas de recompensa. Al aprovechar la estructura topológica de la jerarquía de tareas, nuestro método determina eficientemente los potenciales para diferentes sub-objetivos. Esta clasificación topológica permite al agente priorizar acciones que conduzcan al logro de objetivos de nivel superior, mejorando el proceso de aprendizaje. Para evaluar la eficacia de nuestro enfoque, realizamos experimentos en el entorno de grid-world con OpenAI-Gym. Los resultados muestran la superioridad de nuestro método propuesto sobre las técnicas tradicionales de HRL y los enfoques de aprendizaje por refuerzo basados en máquinas de recompensa en términos de eficiencia de aprendizaje y rendimiento general de la tarea.

Otros recursos que podrían interesarte

Temas Virtualpro