Automatización del ajuste de hiperparámetros en el aprendizaje por refuerzo para la locomoción de robots cuadrúpedos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Automatización del ajuste de hiperparámetros en el aprendizaje por refuerzo para la locomoción de robots cuadrúpedos

Autores: Kim, MyeongSeop; Kim, Jung-Su; Park, Jae-Han

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Automatización del ajuste de hiperparámetros en el aprendizaje por refuerzo para la locomoción de robots cuadrúpedos

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Aprendizaje por refuerzo

Función de recompensa

Métodos automatizados

Locomoción cuadrúpeda

Robot

Puntuación de la marcha

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

En el aprendizaje por refuerzo, la función de recompensa tiene un impacto significativo en el rendimiento del agente. Sin embargo, determinar el valor apropiado de esta función de recompensa requiere muchos intentos y pruebas. Aunque se han propuesto muchos métodos automatizados de aprendizaje por refuerzo para encontrar una función de recompensa adecuada, su prueba es insuficiente en entornos complejos como la locomoción cuadrúpeda. En este documento, proponemos un método para ajustar automáticamente la escala de las funciones de recompensa dominantes en el aprendizaje por refuerzo de un robot cuadrúpedo. El aprendizaje por refuerzo del robot cuadrúpedo es muy sensible a la función de recompensa, y los resultados de investigación recientes han puesto mucho esfuerzo en la formación de recompensas. En este documento, proponemos un método automatizado de formación de recompensas que ajusta automáticamente la escala de la función de recompensa de manera apropiada. Seleccionamos algunas funciones de recompensa dominantes, organizamos sus pesos en una unidad determinada, y luego calculamos sus puntuaciones de marcha para poder seleccionar al agente con la puntuación más alta. Esta puntuación de marcha se definió para reflejar la marcha estable del robot cuadrúpedo. Además, el aprendizaje de la locomoción cuadrúpeda requiere funciones de recompensa de escalas diferentes dependiendo del tamaño y la forma del robot. Por lo tanto, evaluamos el rendimiento del método propuesto en dos robots diferentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro