GRI: Imitación Reforzada General y Su Aplicación a la Conducción Autónoma Basada en Visión
Autores: Chekroun, Raphael; Toromanoff, Marin; Hornauer, Sascha; Moutarde, Fabien
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
GRI: Imitación Reforzada General y Su Aplicación a la Conducción Autónoma Basada en Visión
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo
Demostraciones de expertos
Imitación General Reforzada
Algoritmo de RL fuera de política
Conducción autónoma
Exploración
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
El aprendizaje por refuerzo profundo (DRL) ha demostrado ser efectivo para varias aplicaciones complejas de toma de decisiones, como la conducción autónoma y la robótica. Sin embargo, el DRL es notoriamente limitado por su alta complejidad de muestra y su falta de estabilidad. El conocimiento previo, por ejemplo, como las demostraciones de expertos, a menudo está disponible pero es difícil de aprovechar para mitigar estos problemas. En este artículo, proponemos la Imitación Reforzada General (GRI), un método novedoso que combina los beneficios de la exploración y los datos de expertos y es fácil de implementar sobre cualquier algoritmo de RL fuera de política. Hacemos una hipótesis simplificadora: las demostraciones de expertos pueden verse como datos perfectos cuya política subyacente recibe una recompensa alta constante. Basado en esta suposición, GRI introduce la noción de agente de demostración fuera de línea. Este agente envía datos de expertos que se procesan tanto de manera concurrente como indistinguible con las experiencias que provienen del agente de exploración de RL en línea. Mostramos que nuestro enfoque permite mejoras significativas en la conducción autónoma basada en cámaras en entornos urbanos. Además, validamos el método GRI en tareas de control continuo de Mujoco con diferentes algoritmos de RL fuera de política. Nuestro método ocupó el primer lugar en la tabla de clasificación de CARLA y supera a World on Rails, el método anterior de vanguardia, en un 17%.
Descripción
El aprendizaje por refuerzo profundo (DRL) ha demostrado ser efectivo para varias aplicaciones complejas de toma de decisiones, como la conducción autónoma y la robótica. Sin embargo, el DRL es notoriamente limitado por su alta complejidad de muestra y su falta de estabilidad. El conocimiento previo, por ejemplo, como las demostraciones de expertos, a menudo está disponible pero es difícil de aprovechar para mitigar estos problemas. En este artículo, proponemos la Imitación Reforzada General (GRI), un método novedoso que combina los beneficios de la exploración y los datos de expertos y es fácil de implementar sobre cualquier algoritmo de RL fuera de política. Hacemos una hipótesis simplificadora: las demostraciones de expertos pueden verse como datos perfectos cuya política subyacente recibe una recompensa alta constante. Basado en esta suposición, GRI introduce la noción de agente de demostración fuera de línea. Este agente envía datos de expertos que se procesan tanto de manera concurrente como indistinguible con las experiencias que provienen del agente de exploración de RL en línea. Mostramos que nuestro enfoque permite mejoras significativas en la conducción autónoma basada en cámaras en entornos urbanos. Además, validamos el método GRI en tareas de control continuo de Mujoco con diferentes algoritmos de RL fuera de política. Nuestro método ocupó el primer lugar en la tabla de clasificación de CARLA y supera a World on Rails, el método anterior de vanguardia, en un 17%.