logo móvil
Contáctanos

Control de Seguimiento de Aprendizaje por Refuerzo Multi-Agente de un Cuadrúpedo Biónico con Piernas de Rueda

Autores: Khan, Rezwan Al Islam; Zhang, Chenyun; Deng, Zhongxiao; Zhang, Anzheng; Pan, Yuzhen; Zhao, Xuan; Shang, Huiliang; Li, Ruijiao

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Control de Seguimiento de Aprendizaje por Refuerzo Multi-Agente de un Cuadrúpedo Biónico con Piernas de Rueda


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Enfoque
Estrategias de control
Robots móviles
Aprendizaje por refuerzo
Configuración multiagente
Pegaso

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 20

Citaciones: Sin citaciones


Descripción
Este documento presenta un enfoque novedoso para desarrollar estrategias de control para robots móviles, específicamente el Pegasus, un robot cuadrúpedo biónico con patas en forma de rueda que cuenta con una mecánica de chasis única que permite una dirección independiente de las cuatro ruedas y diferentes marchas. Se propone un controlador de aprendizaje por refuerzo (RL) de múltiples agentes (MA), tratando cada pata como un agente independiente con el objetivo de aprender de manera autónoma. El marco implica una configuración de múltiples agentes para modelar la dinámica del torso y las patas, incorporando una señal de optimización de guía de movimiento en el entrenamiento de políticas y la función de recompensa. Al hacerlo, abordamos los patrones de programación de las patas para la compleja configuración del Pegasus, la necesidad de diversas marchas y el diseño de funciones de recompensa para los agentes MA-RL. Los agentes fueron entrenados utilizando dos variaciones de redes de políticas basadas en el marco, y las pruebas en el mundo real mostraron resultados prometedores con una fácil transferencia de políticas de la simulación al hardware real. El marco propuesto modeló recompensas más altas y convergió más rápido en el entrenamiento que otras variantes. Varios experimentos en el marco del robot mostraron una respuesta rápida (0.8 s) bajo perturbaciones y un bajo error de velocidad lineal, angular y de rumbo, que fue de 2.5 cm/s, 0.06 rad/s y 4 grados, respectivamente. En general, el estudio demuestra la viabilidad del marco de control MA-RL propuesto.

Otros recursos que podrían interesarte

Temas Virtualpro