Comunicación Conjunta y Aprendizaje de Acción en el Seguimiento Multi-Objetivo de Enjambres de UAV con Aprendizaje por Refuerzo Profundo
Autores: Zhou, Wenhong; Li, Jie; Zhang, Qingjie
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Comunicación Conjunta y Aprendizaje de Acción en el Seguimiento Multi-Objetivo de Enjambres de UAV con Aprendizaje por Refuerzo Profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Comunicación
Enjambres de UAV
Aprendizaje por refuerzo
Políticas
Redes neuronales
Cooperación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La comunicación es la piedra angular de los enjambres de UAV para transmitir información y lograr cooperación. Sin embargo, los protocolos de comunicación diseñados artificialmente suelen depender del conocimiento experto previo y carecen de flexibilidad y adaptabilidad, lo que puede limitar la capacidad de comunicación entre los UAV y no es propicio para la cooperación del enjambre. Este documento adopta un nuevo enfoque basado en datos para estudiar cómo se puede utilizar el aprendizaje por refuerzo para aprender conjuntamente las políticas de comunicación y acción cooperativas para los enjambres de UAV. En primer lugar, se define la política de comunicación de un UAV, de modo que el UAV pueda decidir de forma autónoma el contenido del mensaje enviado según su estado en tiempo real. En segundo lugar, se diseñan redes neuronales para aproximar las políticas de comunicación y acción del UAV, y se deducen sus procedimientos de optimización del gradiente de política, respectivamente. Luego, se propone un algoritmo de aprendizaje por refuerzo para aprender conjuntamente las políticas de comunicación y acción de los enjambres de UAV. Los resultados de simulación numérica verifican que las políticas aprendidas por el algoritmo propuesto son superiores a los algoritmos de referencia existentes en términos de rendimiento de seguimiento de múltiples objetivos, escalabilidad en diferentes escenarios y robustez ante fallos de comunicación.
Descripción
La comunicación es la piedra angular de los enjambres de UAV para transmitir información y lograr cooperación. Sin embargo, los protocolos de comunicación diseñados artificialmente suelen depender del conocimiento experto previo y carecen de flexibilidad y adaptabilidad, lo que puede limitar la capacidad de comunicación entre los UAV y no es propicio para la cooperación del enjambre. Este documento adopta un nuevo enfoque basado en datos para estudiar cómo se puede utilizar el aprendizaje por refuerzo para aprender conjuntamente las políticas de comunicación y acción cooperativas para los enjambres de UAV. En primer lugar, se define la política de comunicación de un UAV, de modo que el UAV pueda decidir de forma autónoma el contenido del mensaje enviado según su estado en tiempo real. En segundo lugar, se diseñan redes neuronales para aproximar las políticas de comunicación y acción del UAV, y se deducen sus procedimientos de optimización del gradiente de política, respectivamente. Luego, se propone un algoritmo de aprendizaje por refuerzo para aprender conjuntamente las políticas de comunicación y acción de los enjambres de UAV. Los resultados de simulación numérica verifican que las políticas aprendidas por el algoritmo propuesto son superiores a los algoritmos de referencia existentes en términos de rendimiento de seguimiento de múltiples objetivos, escalabilidad en diferentes escenarios y robustez ante fallos de comunicación.