Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO

Autores: Wei, Dexing; Zhang, Lun; Liu, Quan; Chen, Hao; Huang, Jian

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Búsqueda de Objetivos Dinámicos Cooperativa con Enjambres de UAV: Un Método de Control Óptimo Discreto Basado en MAPPO

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículos aéreos no tripulados

Aprendizaje por refuerzo profundo

Ruta de búsqueda

Objetivos dinámicos

Control óptimo

Paralelización en GPU

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los vehículos aéreos no tripulados (VANT) se emplean comúnmente en misiones de búsqueda y rescate, donde la trayectoria del objetivo es desconocida. Los métodos tradicionales, como los algoritmos evolutivos y la optimización por colonias de hormigas, pueden generar una ruta de búsqueda en un escenario dado. Sin embargo, cuando la escena cambia, es necesario recalcular la solución. En contraste, los métodos más avanzados de aprendizaje profundo por refuerzo pueden entrenar a un agente que se puede aplicar directamente a una tarea similar sin necesidad de recalcular. No obstante, hay varios desafíos cuando el agente aprende a buscar objetivos dinámicos desconocidos. En esta tarea de búsqueda, las recompensas son aleatorias y escasas, lo que dificulta el aprendizaje. Además, debido a la necesidad de que el agente se adapte a varios ajustes de escenario, las interacciones requeridas entre el agente y el entorno son más comparables a las tareas típicas de aprendizaje por refuerzo. Estos desafíos aumentan la dificultad de entrenar a los agentes. Para abordar estos problemas, proponemos el método OC-MAPPO, que combina control óptimo (OC) y Optimización de Políticas Proximales Multi-Agente (MAPPO) con paralelización en GPU. El modelo de control óptimo proporciona al agente recompensas continuas y estables. A través de modelos paralelizados, el agente puede interactuar con el entorno y recopilar datos más rápidamente. Los resultados experimentales demuestran que el método propuesto puede ayudar al agente a aprender más rápido, y el algoritmo mostró un aumento del 26.97% en la tasa de éxito en comparación con los algoritmos genéticos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro