Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos

Autores: Li, Xingda; Zhang, Jianqiang; Liu, Yiping; Zhang, Pengfei; Wang, Jing

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Aprendizaje y Control Sintético: MAADRC Ajustado con MAPPO y Mejora de Laplaciano de Grafo para Formación Resiliente de Múltiples USV en Entornos Marítimos Dinámicos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Control de formación

Vehículos de superficie no tripulados

Control de rechazo de perturbaciones activas multi-agente

Observador de estado extendido distribuido

Algoritmo de evitación de obstáculos

Aprendizaje por refuerzo multi-agente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El control de formación de vehículos de superficie no tripulados (USVs) en entornos marinos complejos es necesario para hacer frente a perturbaciones fuertemente acopladas y de alta dimensión. Se desarrolla un marco de Control Activo de Rechazo de Perturbaciones Multi-Agente (MAADRC) para este propósito. El diseño se centra en un observador de estado extendido distribuido (DESO) acoplado con una estructura de retroalimentación de doble canal -NEFL-GCO y LGL-FC- que mantiene colectivamente la geometría de formación. Tres ideas principales sustentan el enfoque. Primero, un esquema de observación distribuido eficiente en ancho de banda permite a los agentes compartir estimaciones de perturbaciones mientras utilizan sustancialmente menos ancho de banda de comunicación. Segundo, un mecanismo de compensación de consenso adaptativo acomoda variaciones de parámetros a medida que las formaciones evolucionan. Tercero, un algoritmo de evitación de obstáculos compatible con la formación mejora la fiabilidad en aguas congestionadas. Para evaluar la estructura de control y optimizar sus parámetros, se emplea un método de aprendizaje por refuerzo multi-agente (MARL), específicamente la Optimización de Política Proximal Multi-Agente (MAPPO). El agente MARL ajusta dos parámetros críticos: el ancho de banda del observador y la ganancia de retroalimentación no lineal, estableciendo así una línea base de rendimiento. Después de diez millones de pasos de entrenamiento, el MAADRC optimizado por MAPPO logra un error cuadrático medio de seguimiento (RMSE) de 1.18 m. Este valor se encuentra dentro del 3% del resultado ajustado manualmente de 1.21 m, lo que indica que la parametrización del ancho de banda es casi óptima. Simulaciones extensas que incorporan perturbaciones realistas de viento, olas y corrientes demuestran una tasa de éxito en la evitación de obstáculos dinámica que mantiene un nivel esperado, junto con errores de seguimiento de formación consistentemente bajos. En conjunto, estos hallazgos confirman la resiliencia y utilidad práctica del marco propuesto en entornos marítimos exigentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro