Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo
Autores: Norenko, Evgenii; Kramar, Vadim; Kabanov, Aleksey
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículo submarino autónomo
Esquema líder-seguidor
Aprendizaje por refuerzo
Algoritmo de Optimización de Políticas Proximales
Posición relativa
Optimización bayesiana
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento considera el problema de controlar el movimiento de un vehículo autónomo submarino (AUV) que sigue a un líder en un esquema de líder-seguidor basado en información visual sobre la posición del líder. Se asume que el líder está equipado con un sistema de marcadores de luz con geometría conocida, y el seguidor determina su posición relativa basándose en datos de una cámara a bordo sin utilizar un canal de comunicación hidroacústico o intercambio directo de información de navegación. Para sintetizar la ley de control, se utiliza un método de aprendizaje por refuerzo basado en el algoritmo de Optimización de Políticas Proximales. El aprendizaje de políticas se realiza en un entorno de simulación, teniendo en cuenta el modelo dinámico del agente en el plano horizontal y el ruido de observación. Se propone una estructura de espacio de estados, acciones y función de recompensa, destinada a minimizar el error en la posición y orientación relativas. Además, se lleva a cabo una optimización bayesiana de los coeficientes de peso de la función de recompensa. La optimización bayesiana de los pesos de la función de recompensa reduce el error de seguimiento RMS de 0.24 m a 0.09 m y demuestra que la regulación de rumbo tiene un impacto significativamente más fuerte en la estabilidad que las penalizaciones de posición. Los resultados de modelado, pruebas en el entorno Webots y experimentos en dispositivos de clase MiddleAUV confirman la viabilidad y escalabilidad del enfoque. Se muestra que una única política entrenada asegura el mantenimiento estable de la formación cuando el número de agentes seguidores y las condiciones iniciales cambian sin necesidad de un nuevo entrenamiento.
Descripción
Este documento considera el problema de controlar el movimiento de un vehículo autónomo submarino (AUV) que sigue a un líder en un esquema de líder-seguidor basado en información visual sobre la posición del líder. Se asume que el líder está equipado con un sistema de marcadores de luz con geometría conocida, y el seguidor determina su posición relativa basándose en datos de una cámara a bordo sin utilizar un canal de comunicación hidroacústico o intercambio directo de información de navegación. Para sintetizar la ley de control, se utiliza un método de aprendizaje por refuerzo basado en el algoritmo de Optimización de Políticas Proximales. El aprendizaje de políticas se realiza en un entorno de simulación, teniendo en cuenta el modelo dinámico del agente en el plano horizontal y el ruido de observación. Se propone una estructura de espacio de estados, acciones y función de recompensa, destinada a minimizar el error en la posición y orientación relativas. Además, se lleva a cabo una optimización bayesiana de los coeficientes de peso de la función de recompensa. La optimización bayesiana de los pesos de la función de recompensa reduce el error de seguimiento RMS de 0.24 m a 0.09 m y demuestra que la regulación de rumbo tiene un impacto significativamente más fuerte en la estabilidad que las penalizaciones de posición. Los resultados de modelado, pruebas en el entorno Webots y experimentos en dispositivos de clase MiddleAUV confirman la viabilidad y escalabilidad del enfoque. Se muestra que una única política entrenada asegura el mantenimiento estable de la formación cuando el número de agentes seguidores y las condiciones iniciales cambian sin necesidad de un nuevo entrenamiento.