Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO
Autores: Wei, Dexing; Zhang, Lun; Liu, Quan; Chen, Hao; Huang, Jian
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos aéreos no tripulados
Aprendizaje por refuerzo profundo
Ruta de búsqueda
Objetivos dinámicos
Control óptimo
Paralelización en GPU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los vehículos aéreos no tripulados (VANT) se emplean comúnmente en misiones de búsqueda y rescate, donde la trayectoria del objetivo es desconocida. Los métodos tradicionales, como los algoritmos evolutivos y la optimización por colonias de hormigas, pueden generar una ruta de búsqueda en un escenario dado. Sin embargo, cuando la escena cambia, es necesario recalcular la solución. En contraste, los métodos más avanzados de aprendizaje profundo por refuerzo pueden entrenar a un agente que se puede aplicar directamente a una tarea similar sin necesidad de recalcular. No obstante, hay varios desafíos cuando el agente aprende a buscar objetivos dinámicos desconocidos. En esta tarea de búsqueda, las recompensas son aleatorias y escasas, lo que dificulta el aprendizaje. Además, debido a la necesidad de que el agente se adapte a varios ajustes de escenario, las interacciones requeridas entre el agente y el entorno son más comparables a las tareas típicas de aprendizaje por refuerzo. Estos desafíos aumentan la dificultad de entrenar a los agentes. Para abordar estos problemas, proponemos el método OC-MAPPO, que combina control óptimo (OC) y Optimización de Políticas Proximales Multi-Agente (MAPPO) con paralelización en GPU. El modelo de control óptimo proporciona al agente recompensas continuas y estables. A través de modelos paralelizados, el agente puede interactuar con el entorno y recopilar datos más rápidamente. Los resultados experimentales demuestran que el método propuesto puede ayudar al agente a aprender más rápido, y el algoritmo mostró un aumento del 26.97% en la tasa de éxito en comparación con los algoritmos genéticos.
Descripción
Los vehículos aéreos no tripulados (VANT) se emplean comúnmente en misiones de búsqueda y rescate, donde la trayectoria del objetivo es desconocida. Los métodos tradicionales, como los algoritmos evolutivos y la optimización por colonias de hormigas, pueden generar una ruta de búsqueda en un escenario dado. Sin embargo, cuando la escena cambia, es necesario recalcular la solución. En contraste, los métodos más avanzados de aprendizaje profundo por refuerzo pueden entrenar a un agente que se puede aplicar directamente a una tarea similar sin necesidad de recalcular. No obstante, hay varios desafíos cuando el agente aprende a buscar objetivos dinámicos desconocidos. En esta tarea de búsqueda, las recompensas son aleatorias y escasas, lo que dificulta el aprendizaje. Además, debido a la necesidad de que el agente se adapte a varios ajustes de escenario, las interacciones requeridas entre el agente y el entorno son más comparables a las tareas típicas de aprendizaje por refuerzo. Estos desafíos aumentan la dificultad de entrenar a los agentes. Para abordar estos problemas, proponemos el método OC-MAPPO, que combina control óptimo (OC) y Optimización de Políticas Proximales Multi-Agente (MAPPO) con paralelización en GPU. El modelo de control óptimo proporciona al agente recompensas continuas y estables. A través de modelos paralelizados, el agente puede interactuar con el entorno y recopilar datos más rápidamente. Los resultados experimentales demuestran que el método propuesto puede ayudar al agente a aprender más rápido, y el algoritmo mostró un aumento del 26.97% en la tasa de éxito en comparación con los algoritmos genéticos.