DTPPO: Optimización de Políticas Proximales Basada en un Codificador de Doble Transformador para la Navegación de Múltiples UAV en Entornos Complejos No Vistos
Autores: Wei, Anning; Liang, Jintao; Lin, Kaiyuan; Li, Ziyue; Zhao, Rui
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
DTPPO: Optimización de Políticas Proximales Basada en un Codificador de Doble Transformador para la Navegación de Múltiples UAV en Entornos Complejos No Vistos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Aprendizaje por refuerzo profundo multi-agente
MADRL
Navegación multi-UAV
Generalización
Optimización de Políticas Proximales Basada en Codificadores de Doble Transformador
DTPPO
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los métodos existentes de aprendizaje por refuerzo profundo multi-agente (MADRL) para la navegación de múltiples UAV enfrentan desafíos en la generalización, particularmente cuando se aplican a entornos complejos no vistos. Para abordar estas limitaciones, proponemos un método de Optimización de Políticas Proximales Basado en un Codificador de Doble Transformador (DTPPO). DTPPO mejora la colaboración entre múltiples UAV a través de un Transformador Espacial, que modela las dinámicas entre agentes, y un Transformador Temporal, que captura las dependencias temporales para mejorar la generalización en diversos entornos. Esta arquitectura permite a los UAV navegar en nuevos entornos no vistos sin necesidad de reentrenamiento. Simulaciones extensas demuestran que DTPPO supera a los métodos MADRL actuales en términos de transferibilidad, evitación de obstáculos y eficiencia de navegación en entornos con diferentes densidades de obstáculos. Los resultados confirman la efectividad de DTPPO como una solución robusta para la navegación de múltiples UAV en escenarios tanto conocidos como no vistos.
Descripción
Los métodos existentes de aprendizaje por refuerzo profundo multi-agente (MADRL) para la navegación de múltiples UAV enfrentan desafíos en la generalización, particularmente cuando se aplican a entornos complejos no vistos. Para abordar estas limitaciones, proponemos un método de Optimización de Políticas Proximales Basado en un Codificador de Doble Transformador (DTPPO). DTPPO mejora la colaboración entre múltiples UAV a través de un Transformador Espacial, que modela las dinámicas entre agentes, y un Transformador Temporal, que captura las dependencias temporales para mejorar la generalización en diversos entornos. Esta arquitectura permite a los UAV navegar en nuevos entornos no vistos sin necesidad de reentrenamiento. Simulaciones extensas demuestran que DTPPO supera a los métodos MADRL actuales en términos de transferibilidad, evitación de obstáculos y eficiencia de navegación en entornos con diferentes densidades de obstáculos. Los resultados confirman la efectividad de DTPPO como una solución robusta para la navegación de múltiples UAV en escenarios tanto conocidos como no vistos.