Aprendizaje por Refuerzo para Aplicaciones de Robots Colaborativos de Recogida y Colocación: Un Estudio de Caso
Autores: Gomes, Natanael Magno; Martins, Felipe Nascimento; Lima, José; Wörtche, Heinrich
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Aprendizaje por Refuerzo para Aplicaciones de Robots Colaborativos de Recogida y Colocación: Un Estudio de Caso
Categoría
Procesos industriales
Subcategoría
Automatización industrial
Palabras clave
Aplicaciones
Robots industriales
Robots colaborativos
Sistemas de visión
Técnicas de aprendizaje automático
Aprendizaje por refuerzo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
El número de aplicaciones en las que los robots industriales comparten su entorno de trabajo con personas está aumentando. Los robots apropiados para tales aplicaciones están equipados con sistemas de seguridad de acuerdo con la norma ISO/TS 15066:2016 y a menudo se les denomina robots colaborativos (cobots). Debido a la naturaleza de la colaboración humano-robot, el entorno de trabajo de los cobots está sujeto a modificaciones imprevisibles causadas por las personas. Los sistemas de visión se utilizan a menudo para aumentar la adaptabilidad de los cobots, pero generalmente requieren conocimiento de los objetos a manipular. La aplicación de técnicas de aprendizaje automático puede aumentar la flexibilidad al permitir que el sistema de control de un cobot aprenda y se adapte continuamente a cambios inesperados en el entorno de trabajo. En este artículo abordamos este tema investigando el uso del Aprendizaje por Refuerzo (RL) para controlar un cobot para realizar tareas de recogida y colocación. Presentamos la implementación de un sistema de control que puede adaptarse a cambios en la posición y permite que un cobot agarre objetos que no formaban parte del entrenamiento. Nuestro sistema propuesto utiliza aprendizaje profundo por Q-learning para procesar imágenes de color y profundidad y genera una política -greedy para definir las acciones del robot. Los valores Q se estiman utilizando Redes Neuronales Convolucionales (CNN) basadas en modelos preentrenados para la extracción de características. Para reducir el tiempo de entrenamiento, implementamos un entorno de simulación para primero entrenar al agente de RL, luego aplicamos el sistema resultante en un cobot real. El rendimiento del sistema se compara al utilizar los modelos CNN preentrenados ResNext, DenseNet, MobileNet y MNASNet. Los resultados de simulación y experimentales validan el enfoque propuesto y muestran que nuestro sistema alcanza una tasa de éxito de agarre del 89.9% al manipular un objeto nunca antes visto operando con el modelo CNN preentrenado MobileNet.
Descripción
El número de aplicaciones en las que los robots industriales comparten su entorno de trabajo con personas está aumentando. Los robots apropiados para tales aplicaciones están equipados con sistemas de seguridad de acuerdo con la norma ISO/TS 15066:2016 y a menudo se les denomina robots colaborativos (cobots). Debido a la naturaleza de la colaboración humano-robot, el entorno de trabajo de los cobots está sujeto a modificaciones imprevisibles causadas por las personas. Los sistemas de visión se utilizan a menudo para aumentar la adaptabilidad de los cobots, pero generalmente requieren conocimiento de los objetos a manipular. La aplicación de técnicas de aprendizaje automático puede aumentar la flexibilidad al permitir que el sistema de control de un cobot aprenda y se adapte continuamente a cambios inesperados en el entorno de trabajo. En este artículo abordamos este tema investigando el uso del Aprendizaje por Refuerzo (RL) para controlar un cobot para realizar tareas de recogida y colocación. Presentamos la implementación de un sistema de control que puede adaptarse a cambios en la posición y permite que un cobot agarre objetos que no formaban parte del entrenamiento. Nuestro sistema propuesto utiliza aprendizaje profundo por Q-learning para procesar imágenes de color y profundidad y genera una política -greedy para definir las acciones del robot. Los valores Q se estiman utilizando Redes Neuronales Convolucionales (CNN) basadas en modelos preentrenados para la extracción de características. Para reducir el tiempo de entrenamiento, implementamos un entorno de simulación para primero entrenar al agente de RL, luego aplicamos el sistema resultante en un cobot real. El rendimiento del sistema se compara al utilizar los modelos CNN preentrenados ResNext, DenseNet, MobileNet y MNASNet. Los resultados de simulación y experimentales validan el enfoque propuesto y muestran que nuestro sistema alcanza una tasa de éxito de agarre del 89.9% al manipular un objeto nunca antes visto operando con el modelo CNN preentrenado MobileNet.