logo móvil
Contáctanos

Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas

Autores: Feng, Xiaoyun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas


Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Manipulación
Robótica
Aprendizaje por refuerzo
Repetición de experiencias retrospectivas
Repetición de experiencias con múltiples objetivos
Control robótico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones


Descripción
La manipulación de robótica compleja, que en general implica un control continuo de alta dimensión sin un modelo dinámico preciso, convoca estudios y aplicaciones de algoritmos de aprendizaje por refuerzo (RL). Típicamente, RL aprende con el objetivo de maximizar las recompensas acumuladas de las interacciones con el entorno. En realidad, las recompensas externas no son triviales, ya que dependen del conocimiento experto o de priors del dominio. Los avances recientes en la repetición de experiencias retrospectivas (HER) permiten que un robot aprenda de las recompensas escasas y binarias generadas automáticamente, que indican si alcanza los objetivos deseados o pseudo objetivos. Sin embargo, HER introduce inevitablemente un sesgo retrospectivo que distorsiona el control óptimo, ya que las repeticiones contra los pseudo objetivos alcanzados a menudo pueden diferir de la exploración de los objetivos deseados. Para abordar el problema, analizamos el objetivo sesgado e inducimos el sesgo retrospectivo decreciente (DH), que permite una repetición de experiencias consistente con múltiples objetivos al contrarrestar el sesgo entre la exploración y la repetición retrospectiva. Implementamos DH para RL condicionado a objetivos tanto en configuraciones en línea como fuera de línea. Los experimentos en tareas de control robótico en línea demuestran que DH logra el mejor rendimiento promedio y es competitivo con las estrategias de repetición de última generación. Los experimentos en tareas de control robótico fuera de línea muestran que DH mejora sustancialmente la capacidad de extraer políticas casi óptimas de conjuntos de datos fuera de línea.

Otros recursos que podrían interesarte

Temas Virtualpro