logo móvil
Contáctanos

LSTM-Mejorado Aprendizaje Profundo por Refuerzo para el Control de Seguimiento de Trayectorias Robusto de Robots Móviles de Deslizamiento Bajo Restricciones Terra-Mecánicas

Autores: Alcayaga, Jose Manuel; Menéndez, Oswaldo Anibal; Torres-Torriti, Miguel Attilio; Vásconez, Juan Pablo; Arévalo-Ramirez, Tito; Romo, Alvaro Javier Prado

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

LSTM-Mejorado Aprendizaje Profundo por Refuerzo para el Control de Seguimiento de Trayectorias Robusto de Robots Móviles de Deslizamiento Bajo Restricciones Terra-Mecánicas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Navegación autónoma
Aprendizaje profundo por refuerzo
Robots móviles de dirección deslizante
Restricciones terra-mecánicas
Redes LSTM
Seguimiento de trayectorias

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
La navegación autónoma en entornos mineros se enfrenta a la compleja interacción entre las ruedas y el terreno, las pérdidas de tracción causadas por la dinámica de deslizamiento y las limitaciones de los sensores. Este artículo investiga la efectividad de las técnicas de Aprendizaje por Refuerzo Profundo (DRL) para el control de seguimiento de trayectorias de robots móviles de dirección deslizante que operan bajo restricciones terra-mecánicas. Se seleccionan cuatro algoritmos DRL de vanguardia, es decir, Optimización de Política Proximal (PPO), Gradiente de Política Determinista Profunda (DDPG), DDPG Retrasado por Pares (TD3) y Actor-Crítico Suave (SAC), para evaluar su capacidad de generar políticas de control estables y adaptativas bajo diversas condiciones ambientales. Para abordar la observabilidad parcial inherente a la navegación en el mundo real, este estudio presenta un enfoque original que integra redes de Memoria a Largo y Corto Plazo (LSTM) en controladores basados en DRL. Esto permite a los agentes de control retener y aprovechar las dependencias temporales para inferir estados del sistema no observables. Los agentes desarrollados fueron entrenados y probados en simulaciones y luego evaluados en experimentos de campo bajo terrenos irregulares y cambios dinámicos en los parámetros del modelo que conducen a pérdidas de tracción en entornos mineros, abordando diversas tareas de seguimiento de trayectorias, incluidas trayectorias de tipo lemniscata y cuadrada. Esta contribución fortalece la robustez y adaptabilidad de los agentes DRL al permitir una mejor generalización de las políticas aprendidas en comparación con sus contrapartes de referencia, al mismo tiempo que mejora significativamente el rendimiento del seguimiento de trayectorias. En particular, los controladores basados en LSTM lograron reducciones en los errores de seguimiento del 10%, 74%, 21% y 37% para DDPG-LSTM, PPO-LSTM, TD3-LSTM y SAC-LSTM, respectivamente, en comparación con sus contrapartes no recurrentes. Además, DDPG-LSTM y TD3-LSTM redujeron su esfuerzo de control a través de la variación total en la entrada de control en un 15% y un 20% en comparación con sus respectivos controladores de referencia. Los hallazgos de este trabajo proporcionan valiosas ideas sobre el papel del aprendizaje por refuerzo aumentado con memoria para un control de movimiento robusto en entornos no estructurados y de alta incertidumbre.

Otros recursos que podrían interesarte

Temas Virtualpro