Un algoritmo de aprendizaje por refuerzo bioinspirado basado en visión para evitar obstáculos con manipuladores

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un algoritmo de aprendizaje por refuerzo bioinspirado basado en visión para evitar obstáculos con manipuladores

Autores: Singh, Abhilasha; Shakeel, Mohamed; Kalaichelvi, V.; Karthikeyan, R.

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un algoritmo de aprendizaje por refuerzo bioinspirado basado en visión para evitar obstáculos con manipuladores

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Planificación de rutas

Manipuladores robóticos

Aprendizaje por refuerzo

Basado en visión

Evasión de obstáculos

Algoritmos

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 31

Citaciones: Sin citaciones

La planificación de trayectorias para manipuladores robóticos ha demostrado ser un problema desafiante en aplicaciones industriales. A pesar de proporcionar puntos de referencia precisos, el algoritmo tradicional de planificación de trayectorias requiere un mapa predefinido y es ineficaz en entornos complejos y desconocidos. Las técnicas de aprendizaje por refuerzo pueden ser utilizadas en casos donde no hay un mapa ambiental. Para la planificación de trayectorias basada en visión y la evasión de obstáculos en operaciones de línea de ensamblaje, este estudio presenta varios algoritmos de Aprendizaje por Refuerzo (RL) basados en un espacio de estado-acción discreto, como Q-Learning, Red Q Profunda (DQN), Estado-Acción-Recompensa-Estado-Acción (SARSA) y Red Doble Q Profunda (DDQN). Al posicionar la cámara en una posición ojo-mano, este trabajo utilizó la segmentación basada en colores para identificar las ubicaciones de obstáculos, puntos de inicio y objetivo. La técnica de transformación homogénea se utilizó para convertir aún más los valores de píxeles en coordenadas de robot. Además, ajustando el número de episodios, pasos por episodio, tasa de aprendizaje y factor de descuento, se llevó a cabo un estudio de rendimiento de varios algoritmos de RL. Para ajustar aún más los hiperparámetros de entrenamiento, se emplearon algoritmos genéticos (GA) y optimización por enjambre de partículas (PSO). La longitud de la trayectoria recorrida, la recompensa promedio, el número promedio de pasos y el tiempo requerido para llegar al punto objetivo fueron medidos y comparados para cada uno de los casos de prueba. Finalmente, la metodología sugerida fue evaluada utilizando una cámara en vivo que grababa el espacio de trabajo del robot en tiempo real. La trayectoria ideal fue luego trazada utilizando un manipulador TAL BRABO de 5 grados de libertad. Se concluyó que los puntos de referencia obtenidos a través de Double DQN mostraron un rendimiento mejorado y pudieron evitar los obstáculos y llegar al punto objetivo de manera suave y eficiente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro