Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas

Autores: Feng, Xiaoyun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Experiencia de Repetición Consistente en Control Continuo de Alta Dimensionalidad con Perspectivas Decaídas

Categoría

Tecnología de Equipos y Accesorios

Subcategoría

Diseño de equipos y herramientas

Palabras clave

Manipulación

Robótica

Aprendizaje por refuerzo

Repetición de experiencias retrospectivas

Repetición de experiencias con múltiples objetivos

Control robótico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 19

Citaciones: Sin citaciones

La manipulación de robótica compleja, que en general implica un control continuo de alta dimensión sin un modelo dinámico preciso, convoca estudios y aplicaciones de algoritmos de aprendizaje por refuerzo (RL). Típicamente, RL aprende con el objetivo de maximizar las recompensas acumuladas de las interacciones con el entorno. En realidad, las recompensas externas no son triviales, ya que dependen del conocimiento experto o de priors del dominio. Los avances recientes en la repetición de experiencias retrospectivas (HER) permiten que un robot aprenda de las recompensas escasas y binarias generadas automáticamente, que indican si alcanza los objetivos deseados o pseudo objetivos. Sin embargo, HER introduce inevitablemente un sesgo retrospectivo que distorsiona el control óptimo, ya que las repeticiones contra los pseudo objetivos alcanzados a menudo pueden diferir de la exploración de los objetivos deseados. Para abordar el problema, analizamos el objetivo sesgado e inducimos el sesgo retrospectivo decreciente (DH), que permite una repetición de experiencias consistente con múltiples objetivos al contrarrestar el sesgo entre la exploración y la repetición retrospectiva. Implementamos DH para RL condicionado a objetivos tanto en configuraciones en línea como fuera de línea. Los experimentos en tareas de control robótico en línea demuestran que DH logra el mejor rendimiento promedio y es competitivo con las estrategias de repetición de última generación. Los experimentos en tareas de control robótico fuera de línea muestran que DH mejora sustancialmente la capacidad de extraer políticas casi óptimas de conjuntos de datos fuera de línea.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro