Multi-UAVs buscando y rastreando para enjambres de USV: un enfoque de aprendizaje por refuerzo de críticos centrales y subcríticos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Multi-UAVs buscando y rastreando para enjambres de USV: un enfoque de aprendizaje por refuerzo de críticos centrales y subcríticos

Autores: Hou, Ye; Li, Bo; Miao, Xueru

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Multi-UAVs buscando y rastreando para enjambres de USV: un enfoque de aprendizaje por refuerzo de críticos centrales y subcríticos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Propuestas

Planificación de trayectorias cooperativas

Aprendizaje por refuerzo

Vehículos aéreos no tripulados

Vehículo de superficie no tripulado

Multiagente

Eficiencia

Escalabilidad

Resultados de simulación

Críticos descentralizados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este trabajo propone un esquema de planificación de trayectorias cooperativas para múltiples vehículos aéreos no tripulados (UAV) construido mediante aprendizaje por refuerzo multiagente con críticos híbridos, mejorando la eficiencia de búsqueda y seguimiento y la equidad cuando el enjambre de vehículos de superficie no tripulados (USV) supera el número de UAV. Se establece primero un mapa de confianza de la probabilidad de existencia de los objetivos con decaimiento espaciotemporal a través de un mecanismo de fusión de información local basado en la teoría de actualización bayesiana. Esto conduce a una reformulación del modelo del problema en un proceso de decisión de Markov parcialmente observable mejorado por comunicación. Para suprimir la varianza de políticas y el desequilibrio de credibilidad de los múltiples UAV, se propone un algoritmo de gradiente de política determinista profunda con críticos centrales y secundarios, combinando múltiples críticos centralizados con críticos descentralizados. Mientras tanto, se diseña una función de recompensa segmentada para incentivar al UAV a volver a visitar los objetivos detectados. Finalmente, los resultados de la simulación comparados con diversos algoritmos de referencia demuestran la eficacia y escalabilidad del esquema propuesto en este documento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro