Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red profunda de doble cola con prioridad dual (DPD3QN): una red neuronal doble con prioridad dual para la repetición de experiencias en la toma de decisiones de comportamiento de conducción autónoma

Autores: Li, Shuai; Shi, Peicheng; Yang, Aixi; Qi, Heng; Dong, Xinlong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Vehículos autónomos

Control de decisión de comportamiento

Aprendizaje profundo por refuerzo

Seguridad

Mecanismos de recompensa

Red neuronal Q doble profunda en duelo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 35

Citaciones: Sin citaciones

El control de decisiones de comportamiento de vehículos autónomos es un aspecto crítico para avanzar en la tecnología de conducción autónoma. Sin embargo, los algoritmos actuales de toma de decisiones basados en el aprendizaje profundo por refuerzo todavía enfrentan varios desafíos, como la insuficiente seguridad y los mecanismos de recompensa escasos. Para resolver estos problemas, este documento propone una red neuronal doble dueling double deep Q-network basada en la repetición de experiencias de doble prioridad-DPD3QN. Inicialmente, la red dueling se integra con la red neuronal doble deep Q, y la capa de salida de la red original se reestructura para mejorar la precisión de la estimación del valor de la acción. Posteriormente, se incorpora la repetición de experiencias de doble prioridad para facilitar la capacidad del modelo de reconocer y aprovechar rápidamente experiencias críticas. Finalmente, el entrenamiento y la evaluación se realizan en la plataforma de simulación OpenAI Gym. Los resultados de la prueba muestran que DPD3QN ayuda a mejorar la velocidad de convergencia de la toma de decisiones de comportamiento de vehículos autónomos. En comparación con los algoritmos DQN y DDQN actualmente populares, este algoritmo logra tasas de éxito más altas en escenarios desafiantes. La tasa de éxito en el escenario de prueba I aumenta en 11,8 y 25,8 puntos porcentuales, respectivamente, mientras que las tasas de éxito en los escenarios de prueba I y II aumentan en 8,8 y 22,2 puntos porcentuales, respectivamente, lo que indica una capacidad de toma de decisiones de conducción autónoma más segura y eficiente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro