logo móvil
Contáctanos

Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma

Autores: Li, Shuai; Shi, Peicheng; Yang, Aixi; Qi, Heng; Dong, Xinlong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Vehículos autónomos
Control de decisión de comportamiento
Aprendizaje profundo por refuerzo
Seguridad
Mecanismos de recompensa
Red neuronal Q doble profunda en duelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones


Descripción
El control de decisiones de comportamiento de vehículos autónomos es un aspecto crítico para avanzar en la tecnología de conducción autónoma. Sin embargo, los algoritmos actuales de toma de decisiones basados en el aprendizaje profundo por refuerzo todavía enfrentan varios desafíos, como la insuficiente seguridad y los mecanismos de recompensa escasos. Para resolver estos problemas, este documento propone una red neuronal doble dueling double deep Q-network basada en la repetición de experiencias de doble prioridad-DPD3QN. Inicialmente, la red dueling se integra con la red neuronal doble deep Q, y la capa de salida de la red original se reestructura para mejorar la precisión de la estimación del valor de la acción. Posteriormente, se incorpora la repetición de experiencias de doble prioridad para facilitar la capacidad del modelo de reconocer y aprovechar rápidamente experiencias críticas. Finalmente, el entrenamiento y la evaluación se realizan en la plataforma de simulación OpenAI Gym. Los resultados de la prueba muestran que DPD3QN ayuda a mejorar la velocidad de convergencia de la toma de decisiones de comportamiento de vehículos autónomos. En comparación con los algoritmos DQN y DDQN actualmente populares, este algoritmo logra tasas de éxito más altas en escenarios desafiantes. La tasa de éxito en el escenario de prueba I aumenta en 11,8 y 25,8 puntos porcentuales, respectivamente, mientras que las tasas de éxito en los escenarios de prueba I y II aumentan en 8,8 y 22,2 puntos porcentuales, respectivamente, lo que indica una capacidad de toma de decisiones de conducción autónoma más segura y eficiente.

Otros recursos que podrían interesarte

Temas Virtualpro