logo móvil
Contáctanos

Automatización del ajuste de hiperparámetros en el aprendizaje por refuerzo para la locomoción de robots cuadrúpedos

Autores: Kim, MyeongSeop; Kim, Jung-Su; Park, Jae-Han

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Automatización del ajuste de hiperparámetros en el aprendizaje por refuerzo para la locomoción de robots cuadrúpedos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo
Función de recompensa
Métodos automatizados
Locomoción cuadrúpeda
Robot
Puntuación de la marcha

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
En el aprendizaje por refuerzo, la función de recompensa tiene un impacto significativo en el rendimiento del agente. Sin embargo, determinar el valor apropiado de esta función de recompensa requiere muchos intentos y pruebas. Aunque se han propuesto muchos métodos automatizados de aprendizaje por refuerzo para encontrar una función de recompensa adecuada, su prueba es insuficiente en entornos complejos como la locomoción cuadrúpeda. En este documento, proponemos un método para ajustar automáticamente la escala de las funciones de recompensa dominantes en el aprendizaje por refuerzo de un robot cuadrúpedo. El aprendizaje por refuerzo del robot cuadrúpedo es muy sensible a la función de recompensa, y los resultados de investigación recientes han puesto mucho esfuerzo en la formación de recompensas. En este documento, proponemos un método automatizado de formación de recompensas que ajusta automáticamente la escala de la función de recompensa de manera apropiada. Seleccionamos algunas funciones de recompensa dominantes, organizamos sus pesos en una unidad determinada, y luego calculamos sus puntuaciones de marcha para poder seleccionar al agente con la puntuación más alta. Esta puntuación de marcha se definió para reflejar la marcha estable del robot cuadrúpedo. Además, el aprendizaje de la locomoción cuadrúpeda requiere funciones de recompensa de escalas diferentes dependiendo del tamaño y la forma del robot. Por lo tanto, evaluamos el rendimiento del método propuesto en dos robots diferentes.

Otros recursos que podrían interesarte

Temas Virtualpro