Multi-UAVs buscando y rastreando para enjambres de USV: un enfoque de aprendizaje por refuerzo de críticos centrales y subcríticos
Autores: Hou, Ye; Li, Bo; Miao, Xueru
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Multi-UAVs buscando y rastreando para enjambres de USV: un enfoque de aprendizaje por refuerzo de críticos centrales y subcríticos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propuestas
Planificación de trayectorias cooperativas
Aprendizaje por refuerzo
Vehículos aéreos no tripulados
Vehículo de superficie no tripulado
Multiagente
Eficiencia
Escalabilidad
Resultados de simulación
Críticos descentralizados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este trabajo propone un esquema de planificación de trayectorias cooperativas para múltiples vehículos aéreos no tripulados (UAV) construido mediante aprendizaje por refuerzo multiagente con críticos híbridos, mejorando la eficiencia de búsqueda y seguimiento y la equidad cuando el enjambre de vehículos de superficie no tripulados (USV) supera el número de UAV. Se establece primero un mapa de confianza de la probabilidad de existencia de los objetivos con decaimiento espaciotemporal a través de un mecanismo de fusión de información local basado en la teoría de actualización bayesiana. Esto conduce a una reformulación del modelo del problema en un proceso de decisión de Markov parcialmente observable mejorado por comunicación. Para suprimir la varianza de políticas y el desequilibrio de credibilidad de los múltiples UAV, se propone un algoritmo de gradiente de política determinista profunda con críticos centrales y secundarios, combinando múltiples críticos centralizados con críticos descentralizados. Mientras tanto, se diseña una función de recompensa segmentada para incentivar al UAV a volver a visitar los objetivos detectados. Finalmente, los resultados de la simulación comparados con diversos algoritmos de referencia demuestran la eficacia y escalabilidad del esquema propuesto en este documento.
Descripción
Este trabajo propone un esquema de planificación de trayectorias cooperativas para múltiples vehículos aéreos no tripulados (UAV) construido mediante aprendizaje por refuerzo multiagente con críticos híbridos, mejorando la eficiencia de búsqueda y seguimiento y la equidad cuando el enjambre de vehículos de superficie no tripulados (USV) supera el número de UAV. Se establece primero un mapa de confianza de la probabilidad de existencia de los objetivos con decaimiento espaciotemporal a través de un mecanismo de fusión de información local basado en la teoría de actualización bayesiana. Esto conduce a una reformulación del modelo del problema en un proceso de decisión de Markov parcialmente observable mejorado por comunicación. Para suprimir la varianza de políticas y el desequilibrio de credibilidad de los múltiples UAV, se propone un algoritmo de gradiente de política determinista profunda con críticos centrales y secundarios, combinando múltiples críticos centralizados con críticos descentralizados. Mientras tanto, se diseña una función de recompensa segmentada para incentivar al UAV a volver a visitar los objetivos detectados. Finalmente, los resultados de la simulación comparados con diversos algoritmos de referencia demuestran la eficacia y escalabilidad del esquema propuesto en este documento.