logo móvil
Contáctanos

Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo

Autores: Liu, Jiandong; Luo, Wei; Zhang, Guoqing; Li, Ruihao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Aprendizaje profundo por refuerzo
Vehículos aéreos no tripulados
Obstáculos
Yolov8-StrongSort
Memoria de datos dinámica
Campo potencial artificial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones


Descripción
En este artículo, se presenta un enfoque mejorado de aprendizaje por refuerzo profundo para vehículos aéreos no tripulados (VANT) que operan en entornos dinámicos y potencialmente peligrosos. Inicialmente, la capacidad de discernir obstáculos a partir de datos visuales se logra mediante la aplicación de la técnica Yolov8-StrongSort. Concurrentemente, se introduce un nuevo sistema de almacenamiento de datos para redes neuronales profundas Q (DQN), denominado memoria de datos dinámica (DDM), para acelerar el proceso de aprendizaje y la convergencia de los VANT. Además, para abordar el problema de que las trayectorias de los VANT se acercan demasiado a los obstáculos, se presenta una nueva estrategia que emplea un campo potencial artificial para ajustar la función de recompensa, lo que guía eficazmente a los VANT lejos de obstáculos cercanos. Pruebas de simulación rigurosas en un entorno basado en AirSim confirman la efectividad de estos métodos. En comparación con DQN, DQN en duelo, M-DQN, Q-learning mejorado, DDM-DQN, EPF (campo potencial mejorado), APF-DQN y L1-MBRL, nuestro algoritmo logra la tasa de éxito más alta del 77.67%, mientras que también tiene el menor número promedio de pasos de movimiento. Además, realizamos experimentos de evitación de obstáculos con VANT en diferentes densidades de obstáculos. Estas pruebas destacan la rápida convergencia del aprendizaje y la detección y evitación de obstáculos en tiempo real, asegurando el logro exitoso del objetivo.

Otros recursos que podrían interesarte

Temas Virtualpro