Un método de planificación de rutas en un espacio continuo para vehículos aéreos no tripulados basado en una red profunda de Q mejorada por optimización de enjambre de partículas
Autores: Han, Le; Zhang, Hui; An, Nan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un método de planificación de rutas en un espacio continuo para vehículos aéreos no tripulados basado en una red profunda de Q mejorada por optimización de enjambre de partículas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Campo
Vehículo aéreo no tripulado
Planificación de rutas
Red profunda de Q
Optimización por enjambre de partículas
PSO
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En el campo de la planificación de rutas de vehículos aéreos no tripulados (UAV), el algoritmo convencional de red neuronal profunda Q (DQN) enfrenta el problema de la discretización del espacio de acciones, lo que resulta en la generación de rutas planificadas poco suaves e ineficientes. Para abordar este problema, introducimos el algoritmo de optimización por enjambre de partículas (PSO) en DQN para convertir el espacio de acciones discreto en uno continuo. Este método divide el espacio circundante del agente en espacios de acciones discretas y continuas. El algoritmo PSO realiza una búsqueda global en el espacio continuo para obtener una solución candidata continua, mientras que DQN aprende una política en el espacio discreto para obtener una solución candidata discreta. Luego, las dos soluciones candidatas se combinan utilizando un método de vector ponderado para determinar una dirección que equilibre la búsqueda global y el aprendizaje de políticas. Además, introducimos una nueva matriz de características como el espacio de estado para DQN, proporcionando representaciones ambientales y posicionales más precisas. Además, incorporamos un mecanismo en la base de repetición de experiencia priorizada (PER) y actualizaciones N-pasos, que combina el error de diferencia temporal (TD-error) actual con prioridades históricas e incluye un término de penalización de entropía de política, mejorando así la capacidad de DQN para aprender dependencias a largo plazo. El rendimiento del modelo PSO-DQN se mejora aún más a través de una política de codicia mejorada y una estrategia de disminución de la tasa de aprendizaje. Los resultados de simulación y experimentos utilizando el simulador Flightmare demuestran que el método propuesto genera rutas más suaves y eficientes para los drones, exhibiendo una fuerte robustez en entornos complejos.
Descripción
En el campo de la planificación de rutas de vehículos aéreos no tripulados (UAV), el algoritmo convencional de red neuronal profunda Q (DQN) enfrenta el problema de la discretización del espacio de acciones, lo que resulta en la generación de rutas planificadas poco suaves e ineficientes. Para abordar este problema, introducimos el algoritmo de optimización por enjambre de partículas (PSO) en DQN para convertir el espacio de acciones discreto en uno continuo. Este método divide el espacio circundante del agente en espacios de acciones discretas y continuas. El algoritmo PSO realiza una búsqueda global en el espacio continuo para obtener una solución candidata continua, mientras que DQN aprende una política en el espacio discreto para obtener una solución candidata discreta. Luego, las dos soluciones candidatas se combinan utilizando un método de vector ponderado para determinar una dirección que equilibre la búsqueda global y el aprendizaje de políticas. Además, introducimos una nueva matriz de características como el espacio de estado para DQN, proporcionando representaciones ambientales y posicionales más precisas. Además, incorporamos un mecanismo en la base de repetición de experiencia priorizada (PER) y actualizaciones N-pasos, que combina el error de diferencia temporal (TD-error) actual con prioridades históricas e incluye un término de penalización de entropía de política, mejorando así la capacidad de DQN para aprender dependencias a largo plazo. El rendimiento del modelo PSO-DQN se mejora aún más a través de una política de codicia mejorada y una estrategia de disminución de la tasa de aprendizaje. Los resultados de simulación y experimentos utilizando el simulador Flightmare demuestran que el método propuesto genera rutas más suaves y eficientes para los drones, exhibiendo una fuerte robustez en entornos complejos.