Optimización de Políticas en Tiempo Real para Enjambres de UAV Basada en Estrategias Evolutivas
Autores: Chen, Zeyu; Liu, Haiying; Liu, Guohua
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Optimización de Políticas en Tiempo Real para Enjambres de UAV Basada en Estrategias Evolutivas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Desafíos
Optimización de políticas
Vehículo aéreo no tripulado
Estrategia de evolución
En tiempo real
Enjambre
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La toma de decisiones multi-agente enfrenta muchos desafíos, como la no estacionariedad y las recompensas escasas, mientras que la complejidad y la aleatoriedad del entorno real complican aún más el desarrollo de políticas. Este documento aborda los problemas de optimización de políticas de alta dimensión de enjambres de vehículos aéreos no tripulados (UAV). Al modelar el escenario del problema como un proceso de decisión de Markov, se propone un algoritmo de optimización de políticas en tiempo real basado en el preentrenamiento de estrategias evolutivas (ES). Este enfoque combina la planificación en tiempo de decisión con la planificación de fondo para evaluar e integrar diferentes conjuntos de parámetros de políticas en un contexto temporal. En la fase experimental, la red de políticas se entrena utilizando tanto algoritmos ES como REINFORCE en una plataforma de simulación construida. Los experimentos comparativos demuestran la efectividad de usar ES para el preentrenamiento de políticas. Finalmente, el algoritmo de optimización de políticas en tiempo real propuesto mejora aún más el rendimiento del enjambre en aproximadamente un 10% en simulaciones, ofreciendo una solución viable para juegos adversariales entre enjambres y ampliando el alcance de la investigación de algoritmos evolutivos.
Descripción
La toma de decisiones multi-agente enfrenta muchos desafíos, como la no estacionariedad y las recompensas escasas, mientras que la complejidad y la aleatoriedad del entorno real complican aún más el desarrollo de políticas. Este documento aborda los problemas de optimización de políticas de alta dimensión de enjambres de vehículos aéreos no tripulados (UAV). Al modelar el escenario del problema como un proceso de decisión de Markov, se propone un algoritmo de optimización de políticas en tiempo real basado en el preentrenamiento de estrategias evolutivas (ES). Este enfoque combina la planificación en tiempo de decisión con la planificación de fondo para evaluar e integrar diferentes conjuntos de parámetros de políticas en un contexto temporal. En la fase experimental, la red de políticas se entrena utilizando tanto algoritmos ES como REINFORCE en una plataforma de simulación construida. Los experimentos comparativos demuestran la efectividad de usar ES para el preentrenamiento de políticas. Finalmente, el algoritmo de optimización de políticas en tiempo real propuesto mejora aún más el rendimiento del enjambre en aproximadamente un 10% en simulaciones, ofreciendo una solución viable para juegos adversariales entre enjambres y ampliando el alcance de la investigación de algoritmos evolutivos.