Utilizando la Retroalimentación Humana en la Conducción Autónoma: Discreta vs. Continua
Autores: Savari, Maryam; Choe, Yoonsuck
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Utilizando la Retroalimentación Humana en la Conducción Autónoma: Discreta vs. Continua
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Aprendizaje por refuerzo
RL profunda
SAC
Retroalimentación humana
Retroalimentación continua
Retroalimentación discreta
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
Los algoritmos de aprendizaje por refuerzo profundo (Deep RL) se definen con espacios de acción totalmente continuos o discretos. Entre los algoritmos de DRL, el actor-crítico suave (SAC) es un método poderoso capaz de manejar espacios de estado-acción complejos y continuos. Sin embargo, un largo tiempo de entrenamiento y la eficiencia de los datos son las principales desventajas de este algoritmo, a pesar de que SAC es robusto para entornos complejos y dinámicos. Una de las soluciones propuestas para superar este problema es utilizar la retroalimentación humana. En este artículo, investigamos diferentes formas de retroalimentación humana: dirección de la cabeza frente a dirección de dirección y retroalimentación discreta frente a continua. Para ello, se empleó una demostración humana en tiempo real de la dirección de dirección y la dirección de la cabeza humana con acciones discretas o continuas como retroalimentación humana en una tarea de conducción autónoma en el simulador CARLA. Utilizamos acciones alternas de un experto humano y SAC para tener una demostración humana en tiempo real. Además, para probar el método sin posibles diferencias individuales en el rendimiento humano, probamos la retroalimentación discreta frente a la continua en una tarea de péndulo invertido, con un controlador ideal para sustituir al experto humano. Los resultados tanto para las tareas de CARLA como para las de péndulo invertido mostraron una reducción significativa en el tiempo de entrenamiento y un aumento significativo en las recompensas obtenidas con retroalimentación discreta, en comparación con la retroalimentación continua, mientras que el espacio de acción permaneció continuo. También se demostró que la retroalimentación de dirección de la cabeza puede ser casi tan buena como la retroalimentación de dirección. Esperamos que nuestros hallazgos proporcionen un método de entrenamiento simple pero eficiente para Deep RL en conducción autónoma, utilizando múltiples fuentes de retroalimentación humana.
Descripción
Los algoritmos de aprendizaje por refuerzo profundo (Deep RL) se definen con espacios de acción totalmente continuos o discretos. Entre los algoritmos de DRL, el actor-crítico suave (SAC) es un método poderoso capaz de manejar espacios de estado-acción complejos y continuos. Sin embargo, un largo tiempo de entrenamiento y la eficiencia de los datos son las principales desventajas de este algoritmo, a pesar de que SAC es robusto para entornos complejos y dinámicos. Una de las soluciones propuestas para superar este problema es utilizar la retroalimentación humana. En este artículo, investigamos diferentes formas de retroalimentación humana: dirección de la cabeza frente a dirección de dirección y retroalimentación discreta frente a continua. Para ello, se empleó una demostración humana en tiempo real de la dirección de dirección y la dirección de la cabeza humana con acciones discretas o continuas como retroalimentación humana en una tarea de conducción autónoma en el simulador CARLA. Utilizamos acciones alternas de un experto humano y SAC para tener una demostración humana en tiempo real. Además, para probar el método sin posibles diferencias individuales en el rendimiento humano, probamos la retroalimentación discreta frente a la continua en una tarea de péndulo invertido, con un controlador ideal para sustituir al experto humano. Los resultados tanto para las tareas de CARLA como para las de péndulo invertido mostraron una reducción significativa en el tiempo de entrenamiento y un aumento significativo en las recompensas obtenidas con retroalimentación discreta, en comparación con la retroalimentación continua, mientras que el espacio de acción permaneció continuo. También se demostró que la retroalimentación de dirección de la cabeza puede ser casi tan buena como la retroalimentación de dirección. Esperamos que nuestros hallazgos proporcionen un método de entrenamiento simple pero eficiente para Deep RL en conducción autónoma, utilizando múltiples fuentes de retroalimentación humana.