logo móvil
Contáctanos

Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos

Autores: Farid, Ghulam; Bilal, Muhammad; Zhang, Lanyong; Alharbi, Ayman; Ahmed, Ishaq; Azhar, Muhammad

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Algoritmos de planificación
Aprendizaje por refuerzo
Planificación de trayectorias de robots
Red neuronal profunda Q
Repetición de experiencias priorizadas
Regularización L2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El rendimiento de los UAV al ejecutar varios perfiles de misión depende en gran medida de la selección de algoritmos de planificación. Los algoritmos de aprendizaje por refuerzo (RL) pueden ser utilizados de manera efectiva para la planificación de rutas de robots. Debido a la selección aleatoria de acciones en caso de empates, el algoritmo tradicional de Q-learning y sus otras variantes enfrentan problemas de convergencia lenta y planificación de rutas subóptimas en entornos de navegación de alta dimensión. Para resolver estos problemas, proponemos una red Q profunda (DQN) mejorada, que incorpora un mecanismo eficiente de desempate, reproducción de experiencias priorizadas (PER) y regularización L2. El mecanismo de desempate adoptado mejora la selección de acciones y, en última instancia, ayuda a generar una trayectoria óptima para el UAV en un entorno 3D desordenado. Para mejorar la velocidad de convergencia del algoritmo Q tradicional, se utiliza la reproducción de experiencias priorizadas, que aprende de experiencias con un alto error de diferencia temporal (TD) y evita el muestreo uniforme de transiciones almacenadas durante el entrenamiento. Esto también permite priorizar experiencias de alta recompensa (por ejemplo, alcanzar un objetivo), lo que ayuda al agente a redescubrir estos estados valiosos y mejorar el aprendizaje. Además, se adopta la regularización L2 que fomenta pesos más pequeños para valores Q más estables y suaves, con el fin de reducir las selecciones de acciones erráticas y promover trayectorias de vuelo más suaves para el UAV. Finalmente, se presenta el rendimiento del método propuesto y se compara exhaustivamente con el DQN tradicional, demostrando su superior efectividad.

Otros recursos que podrían interesarte

Temas Virtualpro