Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos
Autores: Li, Xingda; Zhang, Jianqiang; Liu, Yiping; Zhang, Pengfei; Wang, Jing
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Control de formación
Vehículos de superficie no tripulados
Control de rechazo de perturbaciones activas multi-agente
Observador de estado extendido distribuido
Algoritmo de evitación de obstáculos
Aprendizaje por refuerzo multi-agente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El control de formación de vehículos de superficie no tripulados (USVs) en entornos marinos complejos es necesario para hacer frente a perturbaciones fuertemente acopladas y de alta dimensión. Se desarrolla un marco de Control Activo de Rechazo de Perturbaciones Multi-Agente (MAADRC) para este propósito. El diseño se centra en un observador de estado extendido distribuido (DESO) acoplado con una estructura de retroalimentación de doble canal -NEFL-GCO y LGL-FC- que mantiene colectivamente la geometría de formación. Tres ideas principales sustentan el enfoque. Primero, un esquema de observación distribuido eficiente en ancho de banda permite a los agentes compartir estimaciones de perturbaciones mientras utilizan sustancialmente menos ancho de banda de comunicación. Segundo, un mecanismo de compensación de consenso adaptativo acomoda variaciones de parámetros a medida que las formaciones evolucionan. Tercero, un algoritmo de evitación de obstáculos compatible con la formación mejora la fiabilidad en aguas congestionadas. Para evaluar la estructura de control y optimizar sus parámetros, se emplea un método de aprendizaje por refuerzo multi-agente (MARL), específicamente la Optimización de Política Proximal Multi-Agente (MAPPO). El agente MARL ajusta dos parámetros críticos: el ancho de banda del observador y la ganancia de retroalimentación no lineal, estableciendo así una línea base de rendimiento. Después de diez millones de pasos de entrenamiento, el MAADRC optimizado por MAPPO logra un error cuadrático medio de seguimiento (RMSE) de 1.18 m. Este valor se encuentra dentro del 3% del resultado ajustado manualmente de 1.21 m, lo que indica que la parametrización del ancho de banda es casi óptima. Simulaciones extensas que incorporan perturbaciones realistas de viento, olas y corrientes demuestran una tasa de éxito en la evitación de obstáculos dinámica que mantiene un nivel esperado, junto con errores de seguimiento de formación consistentemente bajos. En conjunto, estos hallazgos confirman la resiliencia y utilidad práctica del marco propuesto en entornos marítimos exigentes.
Descripción
El control de formación de vehículos de superficie no tripulados (USVs) en entornos marinos complejos es necesario para hacer frente a perturbaciones fuertemente acopladas y de alta dimensión. Se desarrolla un marco de Control Activo de Rechazo de Perturbaciones Multi-Agente (MAADRC) para este propósito. El diseño se centra en un observador de estado extendido distribuido (DESO) acoplado con una estructura de retroalimentación de doble canal -NEFL-GCO y LGL-FC- que mantiene colectivamente la geometría de formación. Tres ideas principales sustentan el enfoque. Primero, un esquema de observación distribuido eficiente en ancho de banda permite a los agentes compartir estimaciones de perturbaciones mientras utilizan sustancialmente menos ancho de banda de comunicación. Segundo, un mecanismo de compensación de consenso adaptativo acomoda variaciones de parámetros a medida que las formaciones evolucionan. Tercero, un algoritmo de evitación de obstáculos compatible con la formación mejora la fiabilidad en aguas congestionadas. Para evaluar la estructura de control y optimizar sus parámetros, se emplea un método de aprendizaje por refuerzo multi-agente (MARL), específicamente la Optimización de Política Proximal Multi-Agente (MAPPO). El agente MARL ajusta dos parámetros críticos: el ancho de banda del observador y la ganancia de retroalimentación no lineal, estableciendo así una línea base de rendimiento. Después de diez millones de pasos de entrenamiento, el MAADRC optimizado por MAPPO logra un error cuadrático medio de seguimiento (RMSE) de 1.18 m. Este valor se encuentra dentro del 3% del resultado ajustado manualmente de 1.21 m, lo que indica que la parametrización del ancho de banda es casi óptima. Simulaciones extensas que incorporan perturbaciones realistas de viento, olas y corrientes demuestran una tasa de éxito en la evitación de obstáculos dinámica que mantiene un nivel esperado, junto con errores de seguimiento de formación consistentemente bajos. En conjunto, estos hallazgos confirman la resiliencia y utilidad práctica del marco propuesto en entornos marítimos exigentes.