Un método de planificación de rutas en un espacio continuo para vehículos aéreos no tripulados basado en una red profunda de Q mejorada por optimización de enjambre de partículas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un método de planificación de rutas en un espacio continuo para vehículos aéreos no tripulados basado en una red profunda de Q mejorada por optimización de enjambre de partículas

Autores: Han, Le; Zhang, Hui; An, Nan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Un método de planificación de rutas en un espacio continuo para vehículos aéreos no tripulados basado en una red profunda de Q mejorada por optimización de enjambre de partículas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Campo

Vehículo aéreo no tripulado

Planificación de rutas

Red profunda de Q

Optimización por enjambre de partículas

PSO

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En el campo de la planificación de rutas de vehículos aéreos no tripulados (UAV), el algoritmo convencional de red neuronal profunda Q (DQN) enfrenta el problema de la discretización del espacio de acciones, lo que resulta en la generación de rutas planificadas poco suaves e ineficientes. Para abordar este problema, introducimos el algoritmo de optimización por enjambre de partículas (PSO) en DQN para convertir el espacio de acciones discreto en uno continuo. Este método divide el espacio circundante del agente en espacios de acciones discretas y continuas. El algoritmo PSO realiza una búsqueda global en el espacio continuo para obtener una solución candidata continua, mientras que DQN aprende una política en el espacio discreto para obtener una solución candidata discreta. Luego, las dos soluciones candidatas se combinan utilizando un método de vector ponderado para determinar una dirección que equilibre la búsqueda global y el aprendizaje de políticas. Además, introducimos una nueva matriz de características como el espacio de estado para DQN, proporcionando representaciones ambientales y posicionales más precisas. Además, incorporamos un mecanismo en la base de repetición de experiencia priorizada (PER) y actualizaciones N-pasos, que combina el error de diferencia temporal (TD-error) actual con prioridades históricas e incluye un término de penalización de entropía de política, mejorando así la capacidad de DQN para aprender dependencias a largo plazo. El rendimiento del modelo PSO-DQN se mejora aún más a través de una política de codicia mejorada y una estrategia de disminución de la tasa de aprendizaje. Los resultados de simulación y experimentos utilizando el simulador Flightmare demuestran que el método propuesto genera rutas más suaves y eficientes para los drones, exhibiendo una fuerte robustez en entornos complejos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro