Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma
Autores: Li, Shuai; Shi, Peicheng; Yang, Aixi; Qi, Heng; Dong, Xinlong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Vehículos autónomos
Control de decisión de comportamiento
Aprendizaje profundo por refuerzo
Seguridad
Mecanismos de recompensa
Red neuronal Q doble profunda en duelo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El control de decisiones de comportamiento de vehículos autónomos es un aspecto crítico para avanzar en la tecnología de conducción autónoma. Sin embargo, los algoritmos actuales de toma de decisiones basados en el aprendizaje profundo por refuerzo todavía enfrentan varios desafíos, como la insuficiente seguridad y los mecanismos de recompensa escasos. Para resolver estos problemas, este documento propone una red neuronal doble dueling double deep Q-network basada en la repetición de experiencias de doble prioridad-DPD3QN. Inicialmente, la red dueling se integra con la red neuronal doble deep Q, y la capa de salida de la red original se reestructura para mejorar la precisión de la estimación del valor de la acción. Posteriormente, se incorpora la repetición de experiencias de doble prioridad para facilitar la capacidad del modelo de reconocer y aprovechar rápidamente experiencias críticas. Finalmente, el entrenamiento y la evaluación se realizan en la plataforma de simulación OpenAI Gym. Los resultados de la prueba muestran que DPD3QN ayuda a mejorar la velocidad de convergencia de la toma de decisiones de comportamiento de vehículos autónomos. En comparación con los algoritmos DQN y DDQN actualmente populares, este algoritmo logra tasas de éxito más altas en escenarios desafiantes. La tasa de éxito en el escenario de prueba I aumenta en 11,8 y 25,8 puntos porcentuales, respectivamente, mientras que las tasas de éxito en los escenarios de prueba I y II aumentan en 8,8 y 22,2 puntos porcentuales, respectivamente, lo que indica una capacidad de toma de decisiones de conducción autónoma más segura y eficiente.
Descripción
El control de decisiones de comportamiento de vehículos autónomos es un aspecto crítico para avanzar en la tecnología de conducción autónoma. Sin embargo, los algoritmos actuales de toma de decisiones basados en el aprendizaje profundo por refuerzo todavía enfrentan varios desafíos, como la insuficiente seguridad y los mecanismos de recompensa escasos. Para resolver estos problemas, este documento propone una red neuronal doble dueling double deep Q-network basada en la repetición de experiencias de doble prioridad-DPD3QN. Inicialmente, la red dueling se integra con la red neuronal doble deep Q, y la capa de salida de la red original se reestructura para mejorar la precisión de la estimación del valor de la acción. Posteriormente, se incorpora la repetición de experiencias de doble prioridad para facilitar la capacidad del modelo de reconocer y aprovechar rápidamente experiencias críticas. Finalmente, el entrenamiento y la evaluación se realizan en la plataforma de simulación OpenAI Gym. Los resultados de la prueba muestran que DPD3QN ayuda a mejorar la velocidad de convergencia de la toma de decisiones de comportamiento de vehículos autónomos. En comparación con los algoritmos DQN y DDQN actualmente populares, este algoritmo logra tasas de éxito más altas en escenarios desafiantes. La tasa de éxito en el escenario de prueba I aumenta en 11,8 y 25,8 puntos porcentuales, respectivamente, mientras que las tasas de éxito en los escenarios de prueba I y II aumentan en 8,8 y 22,2 puntos porcentuales, respectivamente, lo que indica una capacidad de toma de decisiones de conducción autónoma más segura y eficiente.