GLIDE: Aprendizaje por Refuerzo Profundo Multi-Agente para el Control Coordinado de UAV en Entornos Militares Dinámicos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

GLIDE: Aprendizaje por Refuerzo Profundo Multi-Agente para el Control Coordinado de UAV en Entornos Militares Dinámicos

Autores: Gadiraju, Divija Swetha; Karmakar, Prasenjit; Shah, Vijay K.; Aggarwal, Vaneet

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

GLIDE: Aprendizaje por Refuerzo Profundo Multi-Agente para el Control Coordinado de UAV en Entornos Militares Dinámicos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Uavs

Aprendizaje por refuerzo profundo

Multiagente

Flota

Planeo

Descentralizado

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los vehículos aéreos no tripulados (VANT) se utilizan ampliamente para misiones en entornos dinámicos. El Aprendizaje por Refuerzo Profundo (DRL) puede encontrar estrategias efectivas para múltiples agentes que necesitan cooperar para completar la tarea. En este artículo, se aborda el desafío de controlar el movimiento de una flota de VANT mediante el Aprendizaje por Refuerzo Profundo Multiagente (MARL). El movimiento colaborativo de la flota de VANT puede ser controlado de manera centralizada y también de forma descentralizada, lo cual se estudia en este trabajo. Consideramos un entorno militar dinámico con una flota de VANT, cuya tarea es destruir objetivos enemigos mientras se evitan obstáculos como minas. Los VANT inherentemente tienen una capacidad de batería limitada, lo que dirige nuestra investigación a centrarse en el tiempo mínimo de finalización de la tarea. Proponemos un algoritmo de Optimización de Políticas Proximales (PPO) basado en tiempo continuo para el Aprendizaje Multiagente en Entornos Dinámicos (GLIDE). En GLIDE, los VANT se coordinan entre sí y se comunican con la base central para elegir la mejor acción posible. El control de acción en GLIDE puede ser gestionado de manera centralizada y descentralizada, y se proponen dos algoritmos llamados GLIDE Centralizado (C-GLIDE) y GLIDE Descentralizado (D-GLIDE) sobre esta base. Desarrollamos un simulador llamado UAV SIM, en el que las minas se colocan en ubicaciones 2D generadas aleatoriamente, desconocidas para los VANT al inicio de cada episodio. El rendimiento de ambos esquemas propuestos se evalúa a través de simulaciones extensivas. Tanto C-GLIDE como D-GLIDE convergen y tienen un rendimiento comparable en la tasa de destrucción de objetivos para el mismo número de objetivos y minas. Observamos que D-GLIDE es hasta un 68% más rápido en el tiempo de finalización de la tarea en comparación con C-GLIDE y podría mantener más VANT vivos al final de la tarea.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro