Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo
Autores: Wang, Ziyi; Li, Xinran; Sun, Luoyang; Zhang, Haifeng; Liu, Hualin; Wang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Eficiente
Exploración
Aprendizaje por refuerzo
Espacio de acción
Máscaras
Algoritmos de RL
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La eficiente aunque suficiente exploración sigue siendo un desafío crítico en el aprendizaje por refuerzo (RL), especialmente para los Procesos de Decisión de Markov (MDP) con vastos espacios de acción. Los enfoques previos comúnmente han implicado proyectar el espacio de acción original en un espacio latente o emplear máscaras de acción ambientales para reducir las posibilidades de acción. Sin embargo, estos métodos a menudo carecen de interpretabilidad o dependen del conocimiento experto. En este estudio, presentamos un método novedoso para reducir automáticamente el espacio de acción en entornos con espacios de acción discretos manteniendo la interpretabilidad. El enfoque propuesto aprende máscaras específicas del estado con un doble propósito: (1) eliminar acciones con influencia mínima en el MDP y (2) agrupar acciones con consecuencias conductuales idénticas dentro del MDP. Específicamente, introducimos un concepto novedoso llamado Métricas de Bisimulación en Acciones por Estados (BMAS) para cuantificar las consecuencias conductuales de las acciones dentro del MDP y diseñamos un modelo de máscara dedicado para asegurar su naturaleza binaria. Crucialmente, presentamos un procedimiento de aprendizaje práctico para entrenar el modelo de máscara, aprovechando datos de transición recopilados por cualquier política de RL. Nuestro método está diseñado para ser plug-and-play y adaptable a todas las políticas de RL, y para validar su efectividad, se realiza una integración en dos algoritmos prominentes de RL, DQN y PPO. Los resultados experimentales obtenidos de Maze, Atari y RTS2 revelan una aceleración sustancial en el proceso de aprendizaje de RL y mejoras de rendimiento notables facilitadas por el enfoque introducido.
Descripción
La eficiente aunque suficiente exploración sigue siendo un desafío crítico en el aprendizaje por refuerzo (RL), especialmente para los Procesos de Decisión de Markov (MDP) con vastos espacios de acción. Los enfoques previos comúnmente han implicado proyectar el espacio de acción original en un espacio latente o emplear máscaras de acción ambientales para reducir las posibilidades de acción. Sin embargo, estos métodos a menudo carecen de interpretabilidad o dependen del conocimiento experto. En este estudio, presentamos un método novedoso para reducir automáticamente el espacio de acción en entornos con espacios de acción discretos manteniendo la interpretabilidad. El enfoque propuesto aprende máscaras específicas del estado con un doble propósito: (1) eliminar acciones con influencia mínima en el MDP y (2) agrupar acciones con consecuencias conductuales idénticas dentro del MDP. Específicamente, introducimos un concepto novedoso llamado Métricas de Bisimulación en Acciones por Estados (BMAS) para cuantificar las consecuencias conductuales de las acciones dentro del MDP y diseñamos un modelo de máscara dedicado para asegurar su naturaleza binaria. Crucialmente, presentamos un procedimiento de aprendizaje práctico para entrenar el modelo de máscara, aprovechando datos de transición recopilados por cualquier política de RL. Nuestro método está diseñado para ser plug-and-play y adaptable a todas las políticas de RL, y para validar su efectividad, se realiza una integración en dos algoritmos prominentes de RL, DQN y PPO. Los resultados experimentales obtenidos de Maze, Atari y RTS2 revelan una aceleración sustancial en el proceso de aprendizaje de RL y mejoras de rendimiento notables facilitadas por el enfoque introducido.