Un método para la generación de datos de demostración de conducción de alto valor basado en redes generativas adversas convolucionales unidimensionales
Autores: Wu, Yukun; Wu, Xuncheng; Qiu, Siyuan; Xiang, Wenbin
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un método para la generación de datos de demostración de conducción de alto valor basado en redes generativas adversas convolucionales unidimensionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Algoritmo de toma de decisiones secuenciales
Aprendizaje profundo por refuerzo
Aprendizaje a partir de demostraciones
Modelo generativo
Red neuronal generativa adversarial convolucional
Tareas de recompensa escasa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Como un algoritmo prometedor de toma de decisiones secuenciales, el aprendizaje profundo por refuerzo (RL) se ha aplicado en muchos campos. Sin embargo, los métodos relacionados a menudo requieren una gran cantidad de tiempo antes de que puedan lograr un rendimiento aceptable. Mientras que el aprendizaje a partir de demostraciones ha mejorado en gran medida la eficiencia del aprendizaje por refuerzo, plantea algunos desafíos. En el pasado, se ha requerido recopilar datos de demostración de controladores (ya sea humanos o controladores). Sin embargo, los datos de demostración no siempre están disponibles en algunas tareas con recompensas escasas. Lo más importante es que existen diferencias desconocidas entre los agentes y los expertos humanos en la observación del entorno. Esto significa que no todos los datos de demostración del experto humano se ajustan a un proceso de decisión de Markov (MDP). En este documento, se presenta un método de aprendizaje por refuerzo a partir de datos generados (RLfGD), que consta de un modelo generativo y un modelo de aprendizaje. El modelo generativo introduce un método para generar los datos de demostración con una red generativa adversarial convolucional profunda unidimensional. El modelo de aprendizaje aplica los datos de demostración al proceso de aprendizaje por refuerzo para mejorar en gran medida la efectividad del entrenamiento. Se probaron dos escenarios de tráfico complejos para evaluar el algoritmo propuesto. Los resultados experimentales demuestran que RLfGD es capaz de obtener puntuaciones más altas más rápidamente que DDQN en ambos escenarios de tráfico complejos. El rendimiento de los algoritmos de aprendizaje por refuerzo puede mejorar significativamente con este enfoque para los problemas de recompensa escasa.
Descripción
Como un algoritmo prometedor de toma de decisiones secuenciales, el aprendizaje profundo por refuerzo (RL) se ha aplicado en muchos campos. Sin embargo, los métodos relacionados a menudo requieren una gran cantidad de tiempo antes de que puedan lograr un rendimiento aceptable. Mientras que el aprendizaje a partir de demostraciones ha mejorado en gran medida la eficiencia del aprendizaje por refuerzo, plantea algunos desafíos. En el pasado, se ha requerido recopilar datos de demostración de controladores (ya sea humanos o controladores). Sin embargo, los datos de demostración no siempre están disponibles en algunas tareas con recompensas escasas. Lo más importante es que existen diferencias desconocidas entre los agentes y los expertos humanos en la observación del entorno. Esto significa que no todos los datos de demostración del experto humano se ajustan a un proceso de decisión de Markov (MDP). En este documento, se presenta un método de aprendizaje por refuerzo a partir de datos generados (RLfGD), que consta de un modelo generativo y un modelo de aprendizaje. El modelo generativo introduce un método para generar los datos de demostración con una red generativa adversarial convolucional profunda unidimensional. El modelo de aprendizaje aplica los datos de demostración al proceso de aprendizaje por refuerzo para mejorar en gran medida la efectividad del entrenamiento. Se probaron dos escenarios de tráfico complejos para evaluar el algoritmo propuesto. Los resultados experimentales demuestran que RLfGD es capaz de obtener puntuaciones más altas más rápidamente que DDQN en ambos escenarios de tráfico complejos. El rendimiento de los algoritmos de aprendizaje por refuerzo puede mejorar significativamente con este enfoque para los problemas de recompensa escasa.