Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo

Autores: Liu, Jiandong; Luo, Wei; Zhang, Guoqing; Li, Ruihao

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Planificación de rutas de vehículos aéreos no tripulados en entornos dinámicos complejos basada en aprendizaje por refuerzo profundo

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Aprendizaje profundo por refuerzo

Vehículos aéreos no tripulados

Obstáculos

Yolov8-StrongSort

Memoria de datos dinámica

Campo potencial artificial

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 17

Citaciones: Sin citaciones

En este artículo, se presenta un enfoque mejorado de aprendizaje por refuerzo profundo para vehículos aéreos no tripulados (VANT) que operan en entornos dinámicos y potencialmente peligrosos. Inicialmente, la capacidad de discernir obstáculos a partir de datos visuales se logra mediante la aplicación de la técnica Yolov8-StrongSort. Concurrentemente, se introduce un nuevo sistema de almacenamiento de datos para redes neuronales profundas Q (DQN), denominado memoria de datos dinámica (DDM), para acelerar el proceso de aprendizaje y la convergencia de los VANT. Además, para abordar el problema de que las trayectorias de los VANT se acercan demasiado a los obstáculos, se presenta una nueva estrategia que emplea un campo potencial artificial para ajustar la función de recompensa, lo que guía eficazmente a los VANT lejos de obstáculos cercanos. Pruebas de simulación rigurosas en un entorno basado en AirSim confirman la efectividad de estos métodos. En comparación con DQN, DQN en duelo, M-DQN, Q-learning mejorado, DDM-DQN, EPF (campo potencial mejorado), APF-DQN y L1-MBRL, nuestro algoritmo logra la tasa de éxito más alta del 77.67%, mientras que también tiene el menor número promedio de pasos de movimiento. Además, realizamos experimentos de evitación de obstáculos con VANT en diferentes densidades de obstáculos. Estas pruebas destacan la rápida convergencia del aprendizaje y la detección y evitación de obstáculos en tiempo real, asegurando el logro exitoso del objetivo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro