Aprendizaje por Refuerzo Offline Basado en Modelos para el Seguimiento de Trayectorias de AUV Bajo Corrientes Oceánicas Desconocidas con Datos Limitados

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Aprendizaje por Refuerzo Offline Basado en Modelos para el Seguimiento de Trayectorias de AUV Bajo Corrientes Oceánicas Desconocidas con Datos Limitados

Autores: Li, Xinmao; Geng, Lingbo; Liu, Kaizhou; Zhao, Yifeng

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Aprendizaje por Refuerzo Offline Basado en Modelos para el Seguimiento de Trayectorias de AUV Bajo Corrientes Oceánicas Desconocidas con Datos Limitados

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Datos experimentales

Rendimiento de seguimiento de trayectoria de AUV

Costos de diseño del controlador

Seguridad de AUV

Entornos submarinos

Algoritmo de Q-learning

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Minimizar los datos experimentales mientras se mantiene un buen rendimiento en el seguimiento de trayectorias del AUV es esencial para reducir los costos de diseño del controlador y garantizar la seguridad del AUV, particularmente en entornos submarinos complejos y dinámicos con corrientes oceánicas desconocidas. Para abordar esto, proponemos un algoritmo de aprendizaje por refuerzo basado en modelos conservadores fuera de línea (CMQL). Este algoritmo es robusto ante perturbaciones desconocidas y eficiente en la utilización de datos. El controlador basado en CMQL se entrena fuera de línea con modelos de dinámica y cinemática construidos a partir de datos limitados de movimiento del AUV y no requiere ajuste adicional para su implementación. Estos modelos, construidos mediante procesos neuronales condicionales mejorados, permiten predicciones precisas del estado de movimiento a largo plazo dentro de la distribución de datos. Además, el espacio de estados, el espacio de acciones, la función de recompensa y la aleatorización del dominio, cuidadosamente diseñados, garantizan una fuerte generalización y rechazo de perturbaciones sin compensación adicional. Los resultados de simulación demuestran que CMQL logra un seguimiento de trayectorias efectivo bajo corrientes oceánicas desconocidas con un conjunto de datos limitado de solo 1000 puntos de datos. Este método también logra transferencia en cero disparos, demostrando su generalización y potencial para aplicaciones en el mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro