Un algoritmo de aprendizaje por refuerzo bioinspirado basado en visión para evitar obstáculos con manipuladores
Autores: Singh, Abhilasha; Shakeel, Mohamed; Kalaichelvi, V.; Karthikeyan, R.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un algoritmo de aprendizaje por refuerzo bioinspirado basado en visión para evitar obstáculos con manipuladores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Planificación de rutas
Manipuladores robóticos
Aprendizaje por refuerzo
Basado en visión
Evasión de obstáculos
Algoritmos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
La planificación de trayectorias para manipuladores robóticos ha demostrado ser un problema desafiante en aplicaciones industriales. A pesar de proporcionar puntos de referencia precisos, el algoritmo tradicional de planificación de trayectorias requiere un mapa predefinido y es ineficaz en entornos complejos y desconocidos. Las técnicas de aprendizaje por refuerzo pueden ser utilizadas en casos donde no hay un mapa ambiental. Para la planificación de trayectorias basada en visión y la evasión de obstáculos en operaciones de línea de ensamblaje, este estudio presenta varios algoritmos de Aprendizaje por Refuerzo (RL) basados en un espacio de estado-acción discreto, como Q-Learning, Red Q Profunda (DQN), Estado-Acción-Recompensa-Estado-Acción (SARSA) y Red Doble Q Profunda (DDQN). Al posicionar la cámara en una posición ojo-mano, este trabajo utilizó la segmentación basada en colores para identificar las ubicaciones de obstáculos, puntos de inicio y objetivo. La técnica de transformación homogénea se utilizó para convertir aún más los valores de píxeles en coordenadas de robot. Además, ajustando el número de episodios, pasos por episodio, tasa de aprendizaje y factor de descuento, se llevó a cabo un estudio de rendimiento de varios algoritmos de RL. Para ajustar aún más los hiperparámetros de entrenamiento, se emplearon algoritmos genéticos (GA) y optimización por enjambre de partículas (PSO). La longitud de la trayectoria recorrida, la recompensa promedio, el número promedio de pasos y el tiempo requerido para llegar al punto objetivo fueron medidos y comparados para cada uno de los casos de prueba. Finalmente, la metodología sugerida fue evaluada utilizando una cámara en vivo que grababa el espacio de trabajo del robot en tiempo real. La trayectoria ideal fue luego trazada utilizando un manipulador TAL BRABO de 5 grados de libertad. Se concluyó que los puntos de referencia obtenidos a través de Double DQN mostraron un rendimiento mejorado y pudieron evitar los obstáculos y llegar al punto objetivo de manera suave y eficiente.
Descripción
La planificación de trayectorias para manipuladores robóticos ha demostrado ser un problema desafiante en aplicaciones industriales. A pesar de proporcionar puntos de referencia precisos, el algoritmo tradicional de planificación de trayectorias requiere un mapa predefinido y es ineficaz en entornos complejos y desconocidos. Las técnicas de aprendizaje por refuerzo pueden ser utilizadas en casos donde no hay un mapa ambiental. Para la planificación de trayectorias basada en visión y la evasión de obstáculos en operaciones de línea de ensamblaje, este estudio presenta varios algoritmos de Aprendizaje por Refuerzo (RL) basados en un espacio de estado-acción discreto, como Q-Learning, Red Q Profunda (DQN), Estado-Acción-Recompensa-Estado-Acción (SARSA) y Red Doble Q Profunda (DDQN). Al posicionar la cámara en una posición ojo-mano, este trabajo utilizó la segmentación basada en colores para identificar las ubicaciones de obstáculos, puntos de inicio y objetivo. La técnica de transformación homogénea se utilizó para convertir aún más los valores de píxeles en coordenadas de robot. Además, ajustando el número de episodios, pasos por episodio, tasa de aprendizaje y factor de descuento, se llevó a cabo un estudio de rendimiento de varios algoritmos de RL. Para ajustar aún más los hiperparámetros de entrenamiento, se emplearon algoritmos genéticos (GA) y optimización por enjambre de partículas (PSO). La longitud de la trayectoria recorrida, la recompensa promedio, el número promedio de pasos y el tiempo requerido para llegar al punto objetivo fueron medidos y comparados para cada uno de los casos de prueba. Finalmente, la metodología sugerida fue evaluada utilizando una cámara en vivo que grababa el espacio de trabajo del robot en tiempo real. La trayectoria ideal fue luego trazada utilizando un manipulador TAL BRABO de 5 grados de libertad. Se concluyó que los puntos de referencia obtenidos a través de Double DQN mostraron un rendimiento mejorado y pudieron evitar los obstáculos y llegar al punto objetivo de manera suave y eficiente.