Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo

Autores: Norenko, Evgenii; Kramar, Vadim; Kabanov, Aleksey

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Método para controlar el movimiento de un seguidor AUV basado en información visual sobre la posición del líder AUV utilizando métodos de aprendizaje por refuerzo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Vehículo submarino autónomo

Esquema líder-seguidor

Aprendizaje por refuerzo

Algoritmo de Optimización de Políticas Proximales

Posición relativa

Optimización bayesiana

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento considera el problema de controlar el movimiento de un vehículo autónomo submarino (AUV) que sigue a un líder en un esquema de líder-seguidor basado en información visual sobre la posición del líder. Se asume que el líder está equipado con un sistema de marcadores de luz con geometría conocida, y el seguidor determina su posición relativa basándose en datos de una cámara a bordo sin utilizar un canal de comunicación hidroacústico o intercambio directo de información de navegación. Para sintetizar la ley de control, se utiliza un método de aprendizaje por refuerzo basado en el algoritmo de Optimización de Políticas Proximales. El aprendizaje de políticas se realiza en un entorno de simulación, teniendo en cuenta el modelo dinámico del agente en el plano horizontal y el ruido de observación. Se propone una estructura de espacio de estados, acciones y función de recompensa, destinada a minimizar el error en la posición y orientación relativas. Además, se lleva a cabo una optimización bayesiana de los coeficientes de peso de la función de recompensa. La optimización bayesiana de los pesos de la función de recompensa reduce el error de seguimiento RMS de 0.24 m a 0.09 m y demuestra que la regulación de rumbo tiene un impacto significativamente más fuerte en la estabilidad que las penalizaciones de posición. Los resultados de modelado, pruebas en el entorno Webots y experimentos en dispositivos de clase MiddleAUV confirman la viabilidad y escalabilidad del enfoque. Se muestra que una única política entrenada asegura el mantenimiento estable de la formación cuando el número de agentes seguidores y las condiciones iniciales cambian sin necesidad de un nuevo entrenamiento.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro