Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo
Autores: Liu, Jiandong; Luo, Wei; Zhang, Guoqing; Li, Ruihao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Aprendizaje profundo por refuerzo
Vehículos aéreos no tripulados
Obstáculos
Yolov8-StrongSort
Memoria de datos dinámica
Campo potencial artificial
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 17
Citaciones: Sin citaciones
En este artículo, se presenta un enfoque mejorado de aprendizaje por refuerzo profundo para vehículos aéreos no tripulados (VANT) que operan en entornos dinámicos y potencialmente peligrosos. Inicialmente, la capacidad de discernir obstáculos a partir de datos visuales se logra mediante la aplicación de la técnica Yolov8-StrongSort. Concurrentemente, se introduce un nuevo sistema de almacenamiento de datos para redes neuronales profundas Q (DQN), denominado memoria de datos dinámica (DDM), para acelerar el proceso de aprendizaje y la convergencia de los VANT. Además, para abordar el problema de que las trayectorias de los VANT se acercan demasiado a los obstáculos, se presenta una nueva estrategia que emplea un campo potencial artificial para ajustar la función de recompensa, lo que guía eficazmente a los VANT lejos de obstáculos cercanos. Pruebas de simulación rigurosas en un entorno basado en AirSim confirman la efectividad de estos métodos. En comparación con DQN, DQN en duelo, M-DQN, Q-learning mejorado, DDM-DQN, EPF (campo potencial mejorado), APF-DQN y L1-MBRL, nuestro algoritmo logra la tasa de éxito más alta del 77.67%, mientras que también tiene el menor número promedio de pasos de movimiento. Además, realizamos experimentos de evitación de obstáculos con VANT en diferentes densidades de obstáculos. Estas pruebas destacan la rápida convergencia del aprendizaje y la detección y evitación de obstáculos en tiempo real, asegurando el logro exitoso del objetivo.
Descripción
En este artículo, se presenta un enfoque mejorado de aprendizaje por refuerzo profundo para vehículos aéreos no tripulados (VANT) que operan en entornos dinámicos y potencialmente peligrosos. Inicialmente, la capacidad de discernir obstáculos a partir de datos visuales se logra mediante la aplicación de la técnica Yolov8-StrongSort. Concurrentemente, se introduce un nuevo sistema de almacenamiento de datos para redes neuronales profundas Q (DQN), denominado memoria de datos dinámica (DDM), para acelerar el proceso de aprendizaje y la convergencia de los VANT. Además, para abordar el problema de que las trayectorias de los VANT se acercan demasiado a los obstáculos, se presenta una nueva estrategia que emplea un campo potencial artificial para ajustar la función de recompensa, lo que guía eficazmente a los VANT lejos de obstáculos cercanos. Pruebas de simulación rigurosas en un entorno basado en AirSim confirman la efectividad de estos métodos. En comparación con DQN, DQN en duelo, M-DQN, Q-learning mejorado, DDM-DQN, EPF (campo potencial mejorado), APF-DQN y L1-MBRL, nuestro algoritmo logra la tasa de éxito más alta del 77.67%, mientras que también tiene el menor número promedio de pasos de movimiento. Además, realizamos experimentos de evitación de obstáculos con VANT en diferentes densidades de obstáculos. Estas pruebas destacan la rápida convergencia del aprendizaje y la detección y evitación de obstáculos en tiempo real, asegurando el logro exitoso del objetivo.