Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo

Autores: Wang, Ziyi; Li, Xinran; Sun, Luoyang; Zhang, Haifeng; Liu, Hualin; Wang, Jun

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Aprendiendo máscaras de acción específicas del estado para el aprendizaje por refuerzo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Eficiente

Exploración

Aprendizaje por refuerzo

Espacio de acción

Máscaras

Algoritmos de RL

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

La eficiente aunque suficiente exploración sigue siendo un desafío crítico en el aprendizaje por refuerzo (RL), especialmente para los Procesos de Decisión de Markov (MDP) con vastos espacios de acción. Los enfoques previos comúnmente han implicado proyectar el espacio de acción original en un espacio latente o emplear máscaras de acción ambientales para reducir las posibilidades de acción. Sin embargo, estos métodos a menudo carecen de interpretabilidad o dependen del conocimiento experto. En este estudio, presentamos un método novedoso para reducir automáticamente el espacio de acción en entornos con espacios de acción discretos manteniendo la interpretabilidad. El enfoque propuesto aprende máscaras específicas del estado con un doble propósito: (1) eliminar acciones con influencia mínima en el MDP y (2) agrupar acciones con consecuencias conductuales idénticas dentro del MDP. Específicamente, introducimos un concepto novedoso llamado Métricas de Bisimulación en Acciones por Estados (BMAS) para cuantificar las consecuencias conductuales de las acciones dentro del MDP y diseñamos un modelo de máscara dedicado para asegurar su naturaleza binaria. Crucialmente, presentamos un procedimiento de aprendizaje práctico para entrenar el modelo de máscara, aprovechando datos de transición recopilados por cualquier política de RL. Nuestro método está diseñado para ser plug-and-play y adaptable a todas las políticas de RL, y para validar su efectividad, se realiza una integración en dos algoritmos prominentes de RL, DQN y PPO. Los resultados experimentales obtenidos de Maze, Atari y RTS2 revelan una aceleración sustancial en el proceso de aprendizaje de RL y mejoras de rendimiento notables facilitadas por el enfoque introducido.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro