logo móvil
Contáctanos

Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo

Autores: Norenko, Evgenii; Kramar, Vadim; Kabanov, Aleksey

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo submarino autónomo
Esquema líder-seguidor
Aprendizaje por refuerzo
Algoritmo de Optimización de Políticas Proximales
Posición relativa
Optimización bayesiana

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento considera el problema de controlar el movimiento de un vehículo autónomo submarino (AUV) que sigue a un líder en un esquema de líder-seguidor basado en información visual sobre la posición del líder. Se asume que el líder está equipado con un sistema de marcadores de luz con geometría conocida, y el seguidor determina su posición relativa basándose en datos de una cámara a bordo sin utilizar un canal de comunicación hidroacústico o intercambio directo de información de navegación. Para sintetizar la ley de control, se utiliza un método de aprendizaje por refuerzo basado en el algoritmo de Optimización de Políticas Proximales. El aprendizaje de políticas se realiza en un entorno de simulación, teniendo en cuenta el modelo dinámico del agente en el plano horizontal y el ruido de observación. Se propone una estructura de espacio de estados, acciones y función de recompensa, destinada a minimizar el error en la posición y orientación relativas. Además, se lleva a cabo una optimización bayesiana de los coeficientes de peso de la función de recompensa. La optimización bayesiana de los pesos de la función de recompensa reduce el error de seguimiento RMS de 0.24 m a 0.09 m y demuestra que la regulación de rumbo tiene un impacto significativamente más fuerte en la estabilidad que las penalizaciones de posición. Los resultados de modelado, pruebas en el entorno Webots y experimentos en dispositivos de clase MiddleAUV confirman la viabilidad y escalabilidad del enfoque. Se muestra que una única política entrenada asegura el mantenimiento estable de la formación cuando el número de agentes seguidores y las condiciones iniciales cambian sin necesidad de un nuevo entrenamiento.

Otros recursos que podrían interesarte

Temas Virtualpro