Integrando la Red Generativa Antagónica para la Toma de Decisiones en el Aprendizaje por Refuerzo para Agentes Robots Industriales
Autores: Paul, Neelabh; Tasgaonkar, Vaibhav; Walambe, Rahee; Kotecha, Ketan
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Integrando la Red Generativa Antagónica para la Toma de Decisiones en el Aprendizaje por Refuerzo para Agentes Robots Industriales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Robótica
Cargas útiles
Parámetros
Reentrenamiento
Agente
Condiciones
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Muchos sistemas robóticos que transportan ciertas cargas se emplean en industrias manufactureras para tareas de recogida y colocación. El sistema experimenta ineficiencia si se introduce más o menos peso. Si se introduce una carga diferente (ya sea debido a un cambio en la carga o un cambio en los parámetros del sistema robótico), el robot debe ser reentrenado con el nuevo peso/parámetros y la nueva red debe ser entrenada. Parámetros como el peso del robot, la longitud de las extremidades o la nueva carga pueden variar para un agente dependiendo de la circunstancia. Los cambios en los parámetros representan un problema para el agente al intentar alcanzar el mismo objetivo que se espera lograr con los parámetros originales. Por lo tanto, se vuelve obligatorio reentrenar al agente con los nuevos parámetros para que pueda alcanzar su objetivo. Esta investigación propone un nuevo marco para la adaptación a condiciones variables en un agente robótico en un entorno simulado dado sin ningún reentrenamiento. Utilizando las propiedades de la Red Generativa Antagónica (GAN), el agente puede entrenarse solo una vez con aprendizaje por refuerzo y, al ajustar el vector de ruido del generador en la red GAN, el agente puede adaptarse a nuevas condiciones en consecuencia y demostrar un rendimiento similar como si hubiera sido entrenado con los nuevos atributos físicos utilizando aprendizaje por refuerzo. Se considera un entorno simple de CartPole para la experimentación, y se muestra que con el enfoque propuesto el agente se mantiene estable durante más iteraciones. El enfoque puede extenderse al mundo real en el futuro.
Descripción
Muchos sistemas robóticos que transportan ciertas cargas se emplean en industrias manufactureras para tareas de recogida y colocación. El sistema experimenta ineficiencia si se introduce más o menos peso. Si se introduce una carga diferente (ya sea debido a un cambio en la carga o un cambio en los parámetros del sistema robótico), el robot debe ser reentrenado con el nuevo peso/parámetros y la nueva red debe ser entrenada. Parámetros como el peso del robot, la longitud de las extremidades o la nueva carga pueden variar para un agente dependiendo de la circunstancia. Los cambios en los parámetros representan un problema para el agente al intentar alcanzar el mismo objetivo que se espera lograr con los parámetros originales. Por lo tanto, se vuelve obligatorio reentrenar al agente con los nuevos parámetros para que pueda alcanzar su objetivo. Esta investigación propone un nuevo marco para la adaptación a condiciones variables en un agente robótico en un entorno simulado dado sin ningún reentrenamiento. Utilizando las propiedades de la Red Generativa Antagónica (GAN), el agente puede entrenarse solo una vez con aprendizaje por refuerzo y, al ajustar el vector de ruido del generador en la red GAN, el agente puede adaptarse a nuevas condiciones en consecuencia y demostrar un rendimiento similar como si hubiera sido entrenado con los nuevos atributos físicos utilizando aprendizaje por refuerzo. Se considera un entorno simple de CartPole para la experimentación, y se muestra que con el enfoque propuesto el agente se mantiene estable durante más iteraciones. El enfoque puede extenderse al mundo real en el futuro.