Utilizando la Retroalimentación Humana en la Conducción Autónoma: Discreta vs. Continua

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Utilizando la Retroalimentación Humana en la Conducción Autónoma: Discreta vs. Continua

Autores: Savari, Maryam; Choe, Yoonsuck

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Utilizando la Retroalimentación Humana en la Conducción Autónoma: Discreta vs. Continua

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Aprendizaje por refuerzo

RL profunda

SAC

Retroalimentación humana

Retroalimentación continua

Retroalimentación discreta

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones

Los algoritmos de aprendizaje por refuerzo profundo (Deep RL) se definen con espacios de acción totalmente continuos o discretos. Entre los algoritmos de DRL, el actor-crítico suave (SAC) es un método poderoso capaz de manejar espacios de estado-acción complejos y continuos. Sin embargo, un largo tiempo de entrenamiento y la eficiencia de los datos son las principales desventajas de este algoritmo, a pesar de que SAC es robusto para entornos complejos y dinámicos. Una de las soluciones propuestas para superar este problema es utilizar la retroalimentación humana. En este artículo, investigamos diferentes formas de retroalimentación humana: dirección de la cabeza frente a dirección de dirección y retroalimentación discreta frente a continua. Para ello, se empleó una demostración humana en tiempo real de la dirección de dirección y la dirección de la cabeza humana con acciones discretas o continuas como retroalimentación humana en una tarea de conducción autónoma en el simulador CARLA. Utilizamos acciones alternas de un experto humano y SAC para tener una demostración humana en tiempo real. Además, para probar el método sin posibles diferencias individuales en el rendimiento humano, probamos la retroalimentación discreta frente a la continua en una tarea de péndulo invertido, con un controlador ideal para sustituir al experto humano. Los resultados tanto para las tareas de CARLA como para las de péndulo invertido mostraron una reducción significativa en el tiempo de entrenamiento y un aumento significativo en las recompensas obtenidas con retroalimentación discreta, en comparación con la retroalimentación continua, mientras que el espacio de acción permaneció continuo. También se demostró que la retroalimentación de dirección de la cabeza puede ser casi tan buena como la retroalimentación de dirección. Esperamos que nuestros hallazgos proporcionen un método de entrenamiento simple pero eficiente para Deep RL en conducción autónoma, utilizando múltiples fuentes de retroalimentación humana.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro