logo móvil
Contáctanos

Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo

Autores: Wang, Ziyi; Li, Xinran; Sun, Luoyang; Zhang, Haifeng; Liu, Hualin; Wang, Jun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Eficiente
Exploración
Aprendizaje por refuerzo
Espacio de acción
Máscaras
Algoritmos de RL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La eficiente aunque suficiente exploración sigue siendo un desafío crítico en el aprendizaje por refuerzo (RL), especialmente para los Procesos de Decisión de Markov (MDP) con vastos espacios de acción. Los enfoques previos comúnmente han implicado proyectar el espacio de acción original en un espacio latente o emplear máscaras de acción ambientales para reducir las posibilidades de acción. Sin embargo, estos métodos a menudo carecen de interpretabilidad o dependen del conocimiento experto. En este estudio, presentamos un método novedoso para reducir automáticamente el espacio de acción en entornos con espacios de acción discretos manteniendo la interpretabilidad. El enfoque propuesto aprende máscaras específicas del estado con un doble propósito: (1) eliminar acciones con influencia mínima en el MDP y (2) agrupar acciones con consecuencias conductuales idénticas dentro del MDP. Específicamente, introducimos un concepto novedoso llamado Métricas de Bisimulación en Acciones por Estados (BMAS) para cuantificar las consecuencias conductuales de las acciones dentro del MDP y diseñamos un modelo de máscara dedicado para asegurar su naturaleza binaria. Crucialmente, presentamos un procedimiento de aprendizaje práctico para entrenar el modelo de máscara, aprovechando datos de transición recopilados por cualquier política de RL. Nuestro método está diseñado para ser plug-and-play y adaptable a todas las políticas de RL, y para validar su efectividad, se realiza una integración en dos algoritmos prominentes de RL, DQN y PPO. Los resultados experimentales obtenidos de Maze, Atari y RTS2 revelan una aceleración sustancial en el proceso de aprendizaje de RL y mejoras de rendimiento notables facilitadas por el enfoque introducido.

Otros recursos que podrían interesarte

Temas Virtualpro