Aprendizaje por Refuerzo Offline Basado en Modelos para el Seguimiento de Trayectorias de AUV Bajo Corrientes Oceánicas Desconocidas con Datos Limitados
Autores: Li, Xinmao; Geng, Lingbo; Liu, Kaizhou; Zhao, Yifeng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Aprendizaje por Refuerzo Offline Basado en Modelos para el Seguimiento de Trayectorias de AUV Bajo Corrientes Oceánicas Desconocidas con Datos Limitados
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Datos experimentales
Rendimiento de seguimiento de trayectoria de AUV
Costos de diseño del controlador
Seguridad de AUV
Entornos submarinos
Algoritmo de Q-learning
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Minimizar los datos experimentales mientras se mantiene un buen rendimiento en el seguimiento de trayectorias del AUV es esencial para reducir los costos de diseño del controlador y garantizar la seguridad del AUV, particularmente en entornos submarinos complejos y dinámicos con corrientes oceánicas desconocidas. Para abordar esto, proponemos un algoritmo de aprendizaje por refuerzo basado en modelos conservadores fuera de línea (CMQL). Este algoritmo es robusto ante perturbaciones desconocidas y eficiente en la utilización de datos. El controlador basado en CMQL se entrena fuera de línea con modelos de dinámica y cinemática construidos a partir de datos limitados de movimiento del AUV y no requiere ajuste adicional para su implementación. Estos modelos, construidos mediante procesos neuronales condicionales mejorados, permiten predicciones precisas del estado de movimiento a largo plazo dentro de la distribución de datos. Además, el espacio de estados, el espacio de acciones, la función de recompensa y la aleatorización del dominio, cuidadosamente diseñados, garantizan una fuerte generalización y rechazo de perturbaciones sin compensación adicional. Los resultados de simulación demuestran que CMQL logra un seguimiento de trayectorias efectivo bajo corrientes oceánicas desconocidas con un conjunto de datos limitado de solo 1000 puntos de datos. Este método también logra transferencia en cero disparos, demostrando su generalización y potencial para aplicaciones en el mundo real.
Descripción
Minimizar los datos experimentales mientras se mantiene un buen rendimiento en el seguimiento de trayectorias del AUV es esencial para reducir los costos de diseño del controlador y garantizar la seguridad del AUV, particularmente en entornos submarinos complejos y dinámicos con corrientes oceánicas desconocidas. Para abordar esto, proponemos un algoritmo de aprendizaje por refuerzo basado en modelos conservadores fuera de línea (CMQL). Este algoritmo es robusto ante perturbaciones desconocidas y eficiente en la utilización de datos. El controlador basado en CMQL se entrena fuera de línea con modelos de dinámica y cinemática construidos a partir de datos limitados de movimiento del AUV y no requiere ajuste adicional para su implementación. Estos modelos, construidos mediante procesos neuronales condicionales mejorados, permiten predicciones precisas del estado de movimiento a largo plazo dentro de la distribución de datos. Además, el espacio de estados, el espacio de acciones, la función de recompensa y la aleatorización del dominio, cuidadosamente diseñados, garantizan una fuerte generalización y rechazo de perturbaciones sin compensación adicional. Los resultados de simulación demuestran que CMQL logra un seguimiento de trayectorias efectivo bajo corrientes oceánicas desconocidas con un conjunto de datos limitado de solo 1000 puntos de datos. Este método también logra transferencia en cero disparos, demostrando su generalización y potencial para aplicaciones en el mundo real.