Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos
Autores: Farid, Ghulam; Bilal, Muhammad; Zhang, Lanyong; Alharbi, Ayman; Ahmed, Ishaq; Azhar, Muhammad
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un enfoque mejorado de Deep Q-Learning para la navegación de un agente UAV autónomo en un entorno 3D con obstáculos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Algoritmos de planificación
Aprendizaje por refuerzo
Planificación de trayectorias de robots
Red neuronal profunda Q
Repetición de experiencias priorizadas
Regularización L2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El rendimiento de los UAV al ejecutar varios perfiles de misión depende en gran medida de la selección de algoritmos de planificación. Los algoritmos de aprendizaje por refuerzo (RL) pueden ser utilizados de manera efectiva para la planificación de rutas de robots. Debido a la selección aleatoria de acciones en caso de empates, el algoritmo tradicional de Q-learning y sus otras variantes enfrentan problemas de convergencia lenta y planificación de rutas subóptimas en entornos de navegación de alta dimensión. Para resolver estos problemas, proponemos una red Q profunda (DQN) mejorada, que incorpora un mecanismo eficiente de desempate, reproducción de experiencias priorizadas (PER) y regularización L2. El mecanismo de desempate adoptado mejora la selección de acciones y, en última instancia, ayuda a generar una trayectoria óptima para el UAV en un entorno 3D desordenado. Para mejorar la velocidad de convergencia del algoritmo Q tradicional, se utiliza la reproducción de experiencias priorizadas, que aprende de experiencias con un alto error de diferencia temporal (TD) y evita el muestreo uniforme de transiciones almacenadas durante el entrenamiento. Esto también permite priorizar experiencias de alta recompensa (por ejemplo, alcanzar un objetivo), lo que ayuda al agente a redescubrir estos estados valiosos y mejorar el aprendizaje. Además, se adopta la regularización L2 que fomenta pesos más pequeños para valores Q más estables y suaves, con el fin de reducir las selecciones de acciones erráticas y promover trayectorias de vuelo más suaves para el UAV. Finalmente, se presenta el rendimiento del método propuesto y se compara exhaustivamente con el DQN tradicional, demostrando su superior efectividad.
Descripción
El rendimiento de los UAV al ejecutar varios perfiles de misión depende en gran medida de la selección de algoritmos de planificación. Los algoritmos de aprendizaje por refuerzo (RL) pueden ser utilizados de manera efectiva para la planificación de rutas de robots. Debido a la selección aleatoria de acciones en caso de empates, el algoritmo tradicional de Q-learning y sus otras variantes enfrentan problemas de convergencia lenta y planificación de rutas subóptimas en entornos de navegación de alta dimensión. Para resolver estos problemas, proponemos una red Q profunda (DQN) mejorada, que incorpora un mecanismo eficiente de desempate, reproducción de experiencias priorizadas (PER) y regularización L2. El mecanismo de desempate adoptado mejora la selección de acciones y, en última instancia, ayuda a generar una trayectoria óptima para el UAV en un entorno 3D desordenado. Para mejorar la velocidad de convergencia del algoritmo Q tradicional, se utiliza la reproducción de experiencias priorizadas, que aprende de experiencias con un alto error de diferencia temporal (TD) y evita el muestreo uniforme de transiciones almacenadas durante el entrenamiento. Esto también permite priorizar experiencias de alta recompensa (por ejemplo, alcanzar un objetivo), lo que ayuda al agente a redescubrir estos estados valiosos y mejorar el aprendizaje. Además, se adopta la regularización L2 que fomenta pesos más pequeños para valores Q más estables y suaves, con el fin de reducir las selecciones de acciones erráticas y promover trayectorias de vuelo más suaves para el UAV. Finalmente, se presenta el rendimiento del método propuesto y se compara exhaustivamente con el DQN tradicional, demostrando su superior efectividad.