logo móvil
Contáctanos

GRI: Imitación Reforzada General y Su Aplicación a la Conducción Autónoma Basada en Visión

Autores: Chekroun, Raphael; Toromanoff, Marin; Hornauer, Sascha; Moutarde, Fabien

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

GRI: Imitación Reforzada General y Su Aplicación a la Conducción Autónoma Basada en Visión


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Aprendizaje por refuerzo
Demostraciones de expertos
Imitación General Reforzada
Algoritmo de RL fuera de política
Conducción autónoma
Exploración

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
El aprendizaje por refuerzo profundo (DRL) ha demostrado ser efectivo para varias aplicaciones complejas de toma de decisiones, como la conducción autónoma y la robótica. Sin embargo, el DRL es notoriamente limitado por su alta complejidad de muestra y su falta de estabilidad. El conocimiento previo, por ejemplo, como las demostraciones de expertos, a menudo está disponible pero es difícil de aprovechar para mitigar estos problemas. En este artículo, proponemos la Imitación Reforzada General (GRI), un método novedoso que combina los beneficios de la exploración y los datos de expertos y es fácil de implementar sobre cualquier algoritmo de RL fuera de política. Hacemos una hipótesis simplificadora: las demostraciones de expertos pueden verse como datos perfectos cuya política subyacente recibe una recompensa alta constante. Basado en esta suposición, GRI introduce la noción de agente de demostración fuera de línea. Este agente envía datos de expertos que se procesan tanto de manera concurrente como indistinguible con las experiencias que provienen del agente de exploración de RL en línea. Mostramos que nuestro enfoque permite mejoras significativas en la conducción autónoma basada en cámaras en entornos urbanos. Además, validamos el método GRI en tareas de control continuo de Mujoco con diferentes algoritmos de RL fuera de política. Nuestro método ocupó el primer lugar en la tabla de clasificación de CARLA y supera a World on Rails, el método anterior de vanguardia, en un 17%.

Otros recursos que podrían interesarte

Temas Virtualpro