Marco de Aprendizaje Profundo Híbrido para Sistemas de Control Visual Ojo-en-Mano
Autores: Botezatu, Adrian-Paul; Iancu, Andrei-Iulian; Burlacu, Adrian
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Marco de Aprendizaje Profundo Híbrido para Sistemas de Control Visual Ojo-en-Mano
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Propone
Marco basado en aprendizaje profundo híbrido
Control de retroalimentación visual
Sistema robótico ojo-en-la-mano
Enfoque de fusión temprana
Columna vertebral ResNet-18
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este trabajo propone un marco híbrido basado en aprendizaje profundo para el control de retroalimentación visual en un sistema robótico de ojo en mano. El marco utiliza un enfoque de fusión temprana en el que imágenes reales y sintéticas definen los datos de entrenamiento. La primera capa de una estructura ResNet-18 se amplía para fusionar mapas de puntos de interés con canales RGB, lo que permite a la red capturar mejor la geometría de la escena. Un robot manipulador con una configuración de ojo en mano proporciona una imagen de referencia, mientras que las poses e imágenes subsiguientes se generan sintéticamente, eliminando la necesidad de una extensa recopilación de datos reales. Los resultados experimentales revelan que esta representación de entrada enriquecida mejora significativamente la precisión de convergencia y la suavidad de la velocidad en comparación con una línea base que procesa solo imágenes reales. Específicamente, incluir mapas de puntos de características permite a la red discriminar elementos cruciales en la escena, lo que resulta en comandos de velocidad más precisos y trayectorias de efector final estables. Así, integrar datos de mapas generados sintéticamente adicionales en arquitecturas convolucionales puede mejorar la robustez y el rendimiento del sistema de servoing visual, particularmente cuando la recopilación de datos del mundo real es un desafío. A diferencia de los métodos de servoing visual existentes, nuestra estrategia de fusión temprana integra mapas de características directamente en la capa convolucional inicial de la red, permitiendo que el modelo aprenda detalles geométricos críticos desde la primera etapa de entrenamiento. Este enfoque produce predicciones de velocidad superiores y un servoing más suave en comparación con marcos convencionales.
Descripción
Este trabajo propone un marco híbrido basado en aprendizaje profundo para el control de retroalimentación visual en un sistema robótico de ojo en mano. El marco utiliza un enfoque de fusión temprana en el que imágenes reales y sintéticas definen los datos de entrenamiento. La primera capa de una estructura ResNet-18 se amplía para fusionar mapas de puntos de interés con canales RGB, lo que permite a la red capturar mejor la geometría de la escena. Un robot manipulador con una configuración de ojo en mano proporciona una imagen de referencia, mientras que las poses e imágenes subsiguientes se generan sintéticamente, eliminando la necesidad de una extensa recopilación de datos reales. Los resultados experimentales revelan que esta representación de entrada enriquecida mejora significativamente la precisión de convergencia y la suavidad de la velocidad en comparación con una línea base que procesa solo imágenes reales. Específicamente, incluir mapas de puntos de características permite a la red discriminar elementos cruciales en la escena, lo que resulta en comandos de velocidad más precisos y trayectorias de efector final estables. Así, integrar datos de mapas generados sintéticamente adicionales en arquitecturas convolucionales puede mejorar la robustez y el rendimiento del sistema de servoing visual, particularmente cuando la recopilación de datos del mundo real es un desafío. A diferencia de los métodos de servoing visual existentes, nuestra estrategia de fusión temprana integra mapas de características directamente en la capa convolucional inicial de la red, permitiendo que el modelo aprenda detalles geométricos críticos desde la primera etapa de entrenamiento. Este enfoque produce predicciones de velocidad superiores y un servoing más suave en comparación con marcos convencionales.