Síntesis de Marcha Inteligente para Robots Terrestres Autónomos: Un Enfoque de Aprendizaje por Refuerzo
Autores: Jia, Ligan; Kuang, Minchi; Zhu, Jingyu; Shi, Heng; Zhu, Jihong; Zhang, Mengwei
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Síntesis de Marcha Inteligente para Robots Terrestres Autónomos: Un Enfoque de Aprendizaje por Refuerzo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propuesto
Optimización contrastiva de aprendizaje por refuerzo
Control de locomoción de robots cuadrúpedos
Aprendizaje contrastivo
Estabilidad
Control de movimiento
Adaptabilidad ambiental
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Proponemos la Optimización Contrastiva de Aprendizaje por Refuerzo (RLCO), un novedoso marco de control de locomoción para robots cuadrúpedos que integra sinérgicamente el aprendizaje contrastivo con el aprendizaje por refuerzo. Este marco aborda dos limitaciones críticas de los métodos existentes de aprendizaje por refuerzo en el control de movimiento cuadrúpedo: baja eficiencia de muestra e insuficiente estabilidad en las secuencias de acción. Para cumplir con los requisitos de coherencia temporal de las políticas de movimiento en entornos complejos, desarrollamos un mecanismo de alineación de acciones de predicción histórica a través del aprendizaje contrastivo. Este enfoque asegura que una secuencia de acciones sea consistente a lo largo del tiempo. Lo hace reduciendo la diferencia entre las acciones pasadas y las acciones predichas. Este enfoque mejora enormemente la estabilidad y la fiabilidad del control de movimiento. El mecanismo de co-optimización propuesto preserva la capacidad de exploración del aprendizaje por refuerzo para tareas complejas mientras mejora la plausibilidad física y la predictibilidad de las secuencias de acción. Los resultados experimentales demuestran que nuestro método logra mejoras notables en la precisión del control de movimiento y la adaptabilidad ambiental en terrenos no estructurados. A través de un análisis comparativo de diferentes estrategias de entrenamiento, validamos sistemáticamente la efectividad del marco RLCO. Las pruebas de campo en entornos al aire libre con escaleras, pendientes y terrenos cubiertos de hierba confirman las capacidades del robot. El robot cuadrúpedo se adapta rápidamente a diversas condiciones del suelo.
Descripción
Proponemos la Optimización Contrastiva de Aprendizaje por Refuerzo (RLCO), un novedoso marco de control de locomoción para robots cuadrúpedos que integra sinérgicamente el aprendizaje contrastivo con el aprendizaje por refuerzo. Este marco aborda dos limitaciones críticas de los métodos existentes de aprendizaje por refuerzo en el control de movimiento cuadrúpedo: baja eficiencia de muestra e insuficiente estabilidad en las secuencias de acción. Para cumplir con los requisitos de coherencia temporal de las políticas de movimiento en entornos complejos, desarrollamos un mecanismo de alineación de acciones de predicción histórica a través del aprendizaje contrastivo. Este enfoque asegura que una secuencia de acciones sea consistente a lo largo del tiempo. Lo hace reduciendo la diferencia entre las acciones pasadas y las acciones predichas. Este enfoque mejora enormemente la estabilidad y la fiabilidad del control de movimiento. El mecanismo de co-optimización propuesto preserva la capacidad de exploración del aprendizaje por refuerzo para tareas complejas mientras mejora la plausibilidad física y la predictibilidad de las secuencias de acción. Los resultados experimentales demuestran que nuestro método logra mejoras notables en la precisión del control de movimiento y la adaptabilidad ambiental en terrenos no estructurados. A través de un análisis comparativo de diferentes estrategias de entrenamiento, validamos sistemáticamente la efectividad del marco RLCO. Las pruebas de campo en entornos al aire libre con escaleras, pendientes y terrenos cubiertos de hierba confirman las capacidades del robot. El robot cuadrúpedo se adapta rápidamente a diversas condiciones del suelo.