logo móvil
Contáctanos

Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos

Autores: Li, Xingda; Zhang, Jianqiang; Liu, Yiping; Zhang, Pengfei; Wang, Jing

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Control de formación
Vehículos de superficie no tripulados
Control de rechazo de perturbaciones activas multi-agente
Observador de estado extendido distribuido
Algoritmo de evitación de obstáculos
Aprendizaje por refuerzo multi-agente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El control de formación de vehículos de superficie no tripulados (USVs) en entornos marinos complejos es necesario para hacer frente a perturbaciones fuertemente acopladas y de alta dimensión. Se desarrolla un marco de Control Activo de Rechazo de Perturbaciones Multi-Agente (MAADRC) para este propósito. El diseño se centra en un observador de estado extendido distribuido (DESO) acoplado con una estructura de retroalimentación de doble canal -NEFL-GCO y LGL-FC- que mantiene colectivamente la geometría de formación. Tres ideas principales sustentan el enfoque. Primero, un esquema de observación distribuido eficiente en ancho de banda permite a los agentes compartir estimaciones de perturbaciones mientras utilizan sustancialmente menos ancho de banda de comunicación. Segundo, un mecanismo de compensación de consenso adaptativo acomoda variaciones de parámetros a medida que las formaciones evolucionan. Tercero, un algoritmo de evitación de obstáculos compatible con la formación mejora la fiabilidad en aguas congestionadas. Para evaluar la estructura de control y optimizar sus parámetros, se emplea un método de aprendizaje por refuerzo multi-agente (MARL), específicamente la Optimización de Política Proximal Multi-Agente (MAPPO). El agente MARL ajusta dos parámetros críticos: el ancho de banda del observador y la ganancia de retroalimentación no lineal, estableciendo así una línea base de rendimiento. Después de diez millones de pasos de entrenamiento, el MAADRC optimizado por MAPPO logra un error cuadrático medio de seguimiento (RMSE) de 1.18 m. Este valor se encuentra dentro del 3% del resultado ajustado manualmente de 1.21 m, lo que indica que la parametrización del ancho de banda es casi óptima. Simulaciones extensas que incorporan perturbaciones realistas de viento, olas y corrientes demuestran una tasa de éxito en la evitación de obstáculos dinámica que mantiene un nivel esperado, junto con errores de seguimiento de formación consistentemente bajos. En conjunto, estos hallazgos confirman la resiliencia y utilidad práctica del marco propuesto en entornos marítimos exigentes.

Otros recursos que podrían interesarte

Temas Virtualpro