Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente

Autores: Zhou, Ziyun; Shang, Jingwei; Li, Yimang

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mejorando eficiencia en aprendizaje por refuerzo jerárquico a través de cálculo de potencial ordenado topológicamente

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo jerárquico

Máquinas de recompensa

Ordenamiento topológico

Submetas

Eficiencia de aprendizaje

Jerarquía de tareas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 54

Citaciones: Sin citaciones

El aprendizaje por refuerzo jerárquico (HRL) ofrece una estructura jerárquica para organizar tareas, permitiendo a los agentes aprender y tomar decisiones de forma autónoma en entornos complejos. Sin embargo, los enfoques tradicionales de HRL enfrentan limitaciones en el manejo efectivo de tareas complejas. Las máquinas de recompensa, que especifican objetivos de alto nivel y recompensas asociadas para sub-objetivos, han sido introducidas para abordar estas limitaciones al facilitar la comprensión y el razonamiento del agente con respecto a la jerarquía de tareas. En este documento, proponemos un enfoque novedoso para mejorar el rendimiento de HRL a través del cálculo de potenciales ordenados topológicamente para máquinas de recompensa. Al aprovechar la estructura topológica de la jerarquía de tareas, nuestro método determina eficientemente los potenciales para diferentes sub-objetivos. Esta clasificación topológica permite al agente priorizar acciones que conduzcan al logro de objetivos de nivel superior, mejorando el proceso de aprendizaje. Para evaluar la eficacia de nuestro enfoque, realizamos experimentos en el entorno de grid-world con OpenAI-Gym. Los resultados muestran la superioridad de nuestro método propuesto sobre las técnicas tradicionales de HRL y los enfoques de aprendizaje por refuerzo basados en máquinas de recompensa en términos de eficiencia de aprendizaje y rendimiento general de la tarea.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro