GLIDE: Aprendizaje por Refuerzo Profundo Multi-Agente para el Control Coordinado de UAV en Entornos Militares Dinámicos
Autores: Gadiraju, Divija Swetha; Karmakar, Prasenjit; Shah, Vijay K.; Aggarwal, Vaneet
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
GLIDE: Aprendizaje por Refuerzo Profundo Multi-Agente para el Control Coordinado de UAV en Entornos Militares Dinámicos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Uavs
Aprendizaje por refuerzo profundo
Multiagente
Flota
Planeo
Descentralizado
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) se utilizan ampliamente para misiones en entornos dinámicos. El Aprendizaje por Refuerzo Profundo (DRL) puede encontrar estrategias efectivas para múltiples agentes que necesitan cooperar para completar la tarea. En este artículo, se aborda el desafío de controlar el movimiento de una flota de VANT mediante el Aprendizaje por Refuerzo Profundo Multiagente (MARL). El movimiento colaborativo de la flota de VANT puede ser controlado de manera centralizada y también de forma descentralizada, lo cual se estudia en este trabajo. Consideramos un entorno militar dinámico con una flota de VANT, cuya tarea es destruir objetivos enemigos mientras se evitan obstáculos como minas. Los VANT inherentemente tienen una capacidad de batería limitada, lo que dirige nuestra investigación a centrarse en el tiempo mínimo de finalización de la tarea. Proponemos un algoritmo de Optimización de Políticas Proximales (PPO) basado en tiempo continuo para el Aprendizaje Multiagente en Entornos Dinámicos (GLIDE). En GLIDE, los VANT se coordinan entre sí y se comunican con la base central para elegir la mejor acción posible. El control de acción en GLIDE puede ser gestionado de manera centralizada y descentralizada, y se proponen dos algoritmos llamados GLIDE Centralizado (C-GLIDE) y GLIDE Descentralizado (D-GLIDE) sobre esta base. Desarrollamos un simulador llamado UAV SIM, en el que las minas se colocan en ubicaciones 2D generadas aleatoriamente, desconocidas para los VANT al inicio de cada episodio. El rendimiento de ambos esquemas propuestos se evalúa a través de simulaciones extensivas. Tanto C-GLIDE como D-GLIDE convergen y tienen un rendimiento comparable en la tasa de destrucción de objetivos para el mismo número de objetivos y minas. Observamos que D-GLIDE es hasta un 68% más rápido en el tiempo de finalización de la tarea en comparación con C-GLIDE y podría mantener más VANT vivos al final de la tarea.
Descripción
Los vehículos aéreos no tripulados (VANT) se utilizan ampliamente para misiones en entornos dinámicos. El Aprendizaje por Refuerzo Profundo (DRL) puede encontrar estrategias efectivas para múltiples agentes que necesitan cooperar para completar la tarea. En este artículo, se aborda el desafío de controlar el movimiento de una flota de VANT mediante el Aprendizaje por Refuerzo Profundo Multiagente (MARL). El movimiento colaborativo de la flota de VANT puede ser controlado de manera centralizada y también de forma descentralizada, lo cual se estudia en este trabajo. Consideramos un entorno militar dinámico con una flota de VANT, cuya tarea es destruir objetivos enemigos mientras se evitan obstáculos como minas. Los VANT inherentemente tienen una capacidad de batería limitada, lo que dirige nuestra investigación a centrarse en el tiempo mínimo de finalización de la tarea. Proponemos un algoritmo de Optimización de Políticas Proximales (PPO) basado en tiempo continuo para el Aprendizaje Multiagente en Entornos Dinámicos (GLIDE). En GLIDE, los VANT se coordinan entre sí y se comunican con la base central para elegir la mejor acción posible. El control de acción en GLIDE puede ser gestionado de manera centralizada y descentralizada, y se proponen dos algoritmos llamados GLIDE Centralizado (C-GLIDE) y GLIDE Descentralizado (D-GLIDE) sobre esta base. Desarrollamos un simulador llamado UAV SIM, en el que las minas se colocan en ubicaciones 2D generadas aleatoriamente, desconocidas para los VANT al inicio de cada episodio. El rendimiento de ambos esquemas propuestos se evalúa a través de simulaciones extensivas. Tanto C-GLIDE como D-GLIDE convergen y tienen un rendimiento comparable en la tasa de destrucción de objetivos para el mismo número de objetivos y minas. Observamos que D-GLIDE es hasta un 68% más rápido en el tiempo de finalización de la tarea en comparación con C-GLIDE y podría mantener más VANT vivos al final de la tarea.