Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas
Autores: Feng, Xiaoyun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas
Categoría
Tecnología de Equipos y Accesorios
Subcategoría
Diseño de equipos y herramientas
Palabras clave
Manipulación
Robótica
Aprendizaje por refuerzo
Repetición de experiencias retrospectivas
Repetición de experiencias con múltiples objetivos
Control robótico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
La manipulación de robótica compleja, que en general implica un control continuo de alta dimensión sin un modelo dinámico preciso, convoca estudios y aplicaciones de algoritmos de aprendizaje por refuerzo (RL). Típicamente, RL aprende con el objetivo de maximizar las recompensas acumuladas de las interacciones con el entorno. En realidad, las recompensas externas no son triviales, ya que dependen del conocimiento experto o de priors del dominio. Los avances recientes en la repetición de experiencias retrospectivas (HER) permiten que un robot aprenda de las recompensas escasas y binarias generadas automáticamente, que indican si alcanza los objetivos deseados o pseudo objetivos. Sin embargo, HER introduce inevitablemente un sesgo retrospectivo que distorsiona el control óptimo, ya que las repeticiones contra los pseudo objetivos alcanzados a menudo pueden diferir de la exploración de los objetivos deseados. Para abordar el problema, analizamos el objetivo sesgado e inducimos el sesgo retrospectivo decreciente (DH), que permite una repetición de experiencias consistente con múltiples objetivos al contrarrestar el sesgo entre la exploración y la repetición retrospectiva. Implementamos DH para RL condicionado a objetivos tanto en configuraciones en línea como fuera de línea. Los experimentos en tareas de control robótico en línea demuestran que DH logra el mejor rendimiento promedio y es competitivo con las estrategias de repetición de última generación. Los experimentos en tareas de control robótico fuera de línea muestran que DH mejora sustancialmente la capacidad de extraer políticas casi óptimas de conjuntos de datos fuera de línea.
Descripción
La manipulación de robótica compleja, que en general implica un control continuo de alta dimensión sin un modelo dinámico preciso, convoca estudios y aplicaciones de algoritmos de aprendizaje por refuerzo (RL). Típicamente, RL aprende con el objetivo de maximizar las recompensas acumuladas de las interacciones con el entorno. En realidad, las recompensas externas no son triviales, ya que dependen del conocimiento experto o de priors del dominio. Los avances recientes en la repetición de experiencias retrospectivas (HER) permiten que un robot aprenda de las recompensas escasas y binarias generadas automáticamente, que indican si alcanza los objetivos deseados o pseudo objetivos. Sin embargo, HER introduce inevitablemente un sesgo retrospectivo que distorsiona el control óptimo, ya que las repeticiones contra los pseudo objetivos alcanzados a menudo pueden diferir de la exploración de los objetivos deseados. Para abordar el problema, analizamos el objetivo sesgado e inducimos el sesgo retrospectivo decreciente (DH), que permite una repetición de experiencias consistente con múltiples objetivos al contrarrestar el sesgo entre la exploración y la repetición retrospectiva. Implementamos DH para RL condicionado a objetivos tanto en configuraciones en línea como fuera de línea. Los experimentos en tareas de control robótico en línea demuestran que DH logra el mejor rendimiento promedio y es competitivo con las estrategias de repetición de última generación. Los experimentos en tareas de control robótico fuera de línea muestran que DH mejora sustancialmente la capacidad de extraer políticas casi óptimas de conjuntos de datos fuera de línea.