Un método para la generación de datos de demostración de conducción de alto valor basado en redes generativas adversas convolucionales unidimensionales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método para la generación de datos de demostración de conducción de alto valor basado en redes generativas adversas convolucionales unidimensionales

Autores: Wu, Yukun; Wu, Xuncheng; Qiu, Siyuan; Xiang, Wenbin

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un método para la generación de datos de demostración de conducción de alto valor basado en redes generativas adversas convolucionales unidimensionales

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Algoritmo de toma de decisiones secuenciales

Aprendizaje profundo por refuerzo

Aprendizaje a partir de demostraciones

Modelo generativo

Red neuronal generativa adversarial convolucional

Tareas de recompensa escasa

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

Como un algoritmo prometedor de toma de decisiones secuenciales, el aprendizaje profundo por refuerzo (RL) se ha aplicado en muchos campos. Sin embargo, los métodos relacionados a menudo requieren una gran cantidad de tiempo antes de que puedan lograr un rendimiento aceptable. Mientras que el aprendizaje a partir de demostraciones ha mejorado en gran medida la eficiencia del aprendizaje por refuerzo, plantea algunos desafíos. En el pasado, se ha requerido recopilar datos de demostración de controladores (ya sea humanos o controladores). Sin embargo, los datos de demostración no siempre están disponibles en algunas tareas con recompensas escasas. Lo más importante es que existen diferencias desconocidas entre los agentes y los expertos humanos en la observación del entorno. Esto significa que no todos los datos de demostración del experto humano se ajustan a un proceso de decisión de Markov (MDP). En este documento, se presenta un método de aprendizaje por refuerzo a partir de datos generados (RLfGD), que consta de un modelo generativo y un modelo de aprendizaje. El modelo generativo introduce un método para generar los datos de demostración con una red generativa adversarial convolucional profunda unidimensional. El modelo de aprendizaje aplica los datos de demostración al proceso de aprendizaje por refuerzo para mejorar en gran medida la efectividad del entrenamiento. Se probaron dos escenarios de tráfico complejos para evaluar el algoritmo propuesto. Los resultados experimentales demuestran que RLfGD es capaz de obtener puntuaciones más altas más rápidamente que DDQN en ambos escenarios de tráfico complejos. El rendimiento de los algoritmos de aprendizaje por refuerzo puede mejorar significativamente con este enfoque para los problemas de recompensa escasa.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro