PSTO: Aprendizaje de locomoción energéticamente eficiente para robots cuadrúpedos
Autores: Zhu, Wangshu; Rosendo, Andre
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
PSTO: Aprendizaje de locomoción energéticamente eficiente para robots cuadrúpedos
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Eficiencia energética
Robots cuadrúpedos
Aprendizaje profundo por refuerzo
Optimización de transferencia de búsqueda de políticas
Locomoción
Simulaciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
La eficiencia energética es crítica para la locomoción de robots cuadrúpedos. Sin embargo, los valores de eficiencia energética encontrados en simulaciones no se transfieren adecuadamente al mundo real. Para abordar este problema, presentamos un nuevo método, llamado Optimización de Transferencia de Búsqueda de Políticas (PSTO), que combina el aprendizaje por refuerzo profundo y la optimización para crear locomoción energéticamente eficiente para robots cuadrúpedos en el mundo real. El aprendizaje por refuerzo profundo y el proceso de búsqueda de políticas se realizan mediante el algoritmo TD3 y la política se transfiere a la trayectoria de control de bucle abierto, que se optimiza aún más mediante métodos numéricos y se lleva a cabo en el robot en el mundo real. Con el fin de garantizar la alta uniformidad de los resultados de la simulación y el comportamiento de la plataforma de hardware, introducimos y validamos el modelo preciso en simulación, incluyendo un tamaño consistente y parámetros de ajuste fino. Luego validamos esos resultados con experimentos en el mundo real en el robot cuadrúpedo Ant, ejecutando gaits de caminata dinámica con diferentes longitudes de patas y números de amplificaciones. Analizamos los resultados y mostramos que nuestros métodos pueden superar el método de control proporcionado por el algoritmo de búsqueda de políticas de vanguardia TD3 y la función sinusoidal tanto en eficiencia energética como en velocidad.
Descripción
La eficiencia energética es crítica para la locomoción de robots cuadrúpedos. Sin embargo, los valores de eficiencia energética encontrados en simulaciones no se transfieren adecuadamente al mundo real. Para abordar este problema, presentamos un nuevo método, llamado Optimización de Transferencia de Búsqueda de Políticas (PSTO), que combina el aprendizaje por refuerzo profundo y la optimización para crear locomoción energéticamente eficiente para robots cuadrúpedos en el mundo real. El aprendizaje por refuerzo profundo y el proceso de búsqueda de políticas se realizan mediante el algoritmo TD3 y la política se transfiere a la trayectoria de control de bucle abierto, que se optimiza aún más mediante métodos numéricos y se lleva a cabo en el robot en el mundo real. Con el fin de garantizar la alta uniformidad de los resultados de la simulación y el comportamiento de la plataforma de hardware, introducimos y validamos el modelo preciso en simulación, incluyendo un tamaño consistente y parámetros de ajuste fino. Luego validamos esos resultados con experimentos en el mundo real en el robot cuadrúpedo Ant, ejecutando gaits de caminata dinámica con diferentes longitudes de patas y números de amplificaciones. Analizamos los resultados y mostramos que nuestros métodos pueden superar el método de control proporcionado por el algoritmo de búsqueda de políticas de vanguardia TD3 y la función sinusoidal tanto en eficiencia energética como en velocidad.