logo móvil
Contáctanos

Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO

Autores: Wei, Dexing; Zhang, Lun; Liu, Quan; Chen, Hao; Huang, Jian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados
Aprendizaje por refuerzo profundo
Ruta de búsqueda
Objetivos dinámicos
Control óptimo
Paralelización en GPU

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los vehículos aéreos no tripulados (VANT) se emplean comúnmente en misiones de búsqueda y rescate, donde la trayectoria del objetivo es desconocida. Los métodos tradicionales, como los algoritmos evolutivos y la optimización por colonias de hormigas, pueden generar una ruta de búsqueda en un escenario dado. Sin embargo, cuando la escena cambia, es necesario recalcular la solución. En contraste, los métodos más avanzados de aprendizaje profundo por refuerzo pueden entrenar a un agente que se puede aplicar directamente a una tarea similar sin necesidad de recalcular. No obstante, hay varios desafíos cuando el agente aprende a buscar objetivos dinámicos desconocidos. En esta tarea de búsqueda, las recompensas son aleatorias y escasas, lo que dificulta el aprendizaje. Además, debido a la necesidad de que el agente se adapte a varios ajustes de escenario, las interacciones requeridas entre el agente y el entorno son más comparables a las tareas típicas de aprendizaje por refuerzo. Estos desafíos aumentan la dificultad de entrenar a los agentes. Para abordar estos problemas, proponemos el método OC-MAPPO, que combina control óptimo (OC) y Optimización de Políticas Proximales Multi-Agente (MAPPO) con paralelización en GPU. El modelo de control óptimo proporciona al agente recompensas continuas y estables. A través de modelos paralelizados, el agente puede interactuar con el entorno y recopilar datos más rápidamente. Los resultados experimentales demuestran que el método propuesto puede ayudar al agente a aprender más rápido, y el algoritmo mostró un aumento del 26.97% en la tasa de éxito en comparación con los algoritmos genéticos.

Otros recursos que podrían interesarte

Temas Virtualpro