Surformer v1: Clasificación de Superficies Basada en Transformadores Usando Características Táctiles y Visuales
Autores: Kansana, Manish; Hossain, Elias; Rahimi, Shahram; Amiri Golilarz, Noorbakhsh
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Surformer v1: Clasificación de Superficies Basada en Transformadores Usando Características Táctiles y Visuales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de materiales de superficie
Arquitectura basada en transformadores
Características táctiles
Incrustaciones visuales
Fusión multimodal
Eficiencia computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de materiales de superficie es un componente clave en la percepción robótica y la interacción física, particularmente al aprovechar tanto las entradas sensoriales táctiles como visuales. En este trabajo, proponemos Surformer v1, una arquitectura basada en transformadores diseñada para la clasificación de superficies utilizando características táctiles estructuradas y embeddings visuales reducidos mediante Análisis de Componentes Principales (PCA) extraídos a través de ResNet 50. El modelo integra codificadores específicos de modalidad con capas de atención cruzada, lo que permite interacciones ricas entre la visión y el tacto. Actualmente, los modelos de aprendizaje profundo de última generación para tareas de visión han logrado un rendimiento notable. Con esto en mente, nuestro primer conjunto de experimentos se centró exclusivamente en la clasificación de superficies solo táctiles. Utilizando ingeniería de características, entrenamos y evaluamos múltiples modelos de aprendizaje automático, evaluando su precisión y tiempo de inferencia. Luego implementamos un modelo de Transformer solo de codificador adaptado para características táctiles. Este modelo no solo logra la mayor precisión, sino que también demostró un tiempo de inferencia significativamente más rápido en comparación con otros modelos evaluados, destacando su potencial para aplicaciones en tiempo real. Para ampliar esta investigación, introdujimos una configuración de fusión multimodal combinando entradas visuales y táctiles. Entrenamos tanto Surformer v1 (utilizando características estructuradas) como una CNN Multimodal (utilizando imágenes en bruto) para examinar el impacto del aprendizaje multimodal basado en características frente al basado en imágenes en la precisión de clasificación y la eficiencia computacional. Los resultados mostraron que Surformer v1 logró una precisión del 99.4% con un tiempo de inferencia de 0.7271 ms, mientras que la CNN Multimodal logró una precisión ligeramente superior pero requirió significativamente más tiempo de inferencia. Estos hallazgos sugieren que Surformer v1 ofrece un equilibrio convincente entre precisión, eficiencia y costo computacional para el reconocimiento de materiales de superficie. Los resultados también subrayan la efectividad de integrar el aprendizaje de características, la atención cruzada y la fusión basada en transformadores para capturar las fortalezas complementarias de las modalidades táctiles y visuales.
Descripción
El reconocimiento de materiales de superficie es un componente clave en la percepción robótica y la interacción física, particularmente al aprovechar tanto las entradas sensoriales táctiles como visuales. En este trabajo, proponemos Surformer v1, una arquitectura basada en transformadores diseñada para la clasificación de superficies utilizando características táctiles estructuradas y embeddings visuales reducidos mediante Análisis de Componentes Principales (PCA) extraídos a través de ResNet 50. El modelo integra codificadores específicos de modalidad con capas de atención cruzada, lo que permite interacciones ricas entre la visión y el tacto. Actualmente, los modelos de aprendizaje profundo de última generación para tareas de visión han logrado un rendimiento notable. Con esto en mente, nuestro primer conjunto de experimentos se centró exclusivamente en la clasificación de superficies solo táctiles. Utilizando ingeniería de características, entrenamos y evaluamos múltiples modelos de aprendizaje automático, evaluando su precisión y tiempo de inferencia. Luego implementamos un modelo de Transformer solo de codificador adaptado para características táctiles. Este modelo no solo logra la mayor precisión, sino que también demostró un tiempo de inferencia significativamente más rápido en comparación con otros modelos evaluados, destacando su potencial para aplicaciones en tiempo real. Para ampliar esta investigación, introdujimos una configuración de fusión multimodal combinando entradas visuales y táctiles. Entrenamos tanto Surformer v1 (utilizando características estructuradas) como una CNN Multimodal (utilizando imágenes en bruto) para examinar el impacto del aprendizaje multimodal basado en características frente al basado en imágenes en la precisión de clasificación y la eficiencia computacional. Los resultados mostraron que Surformer v1 logró una precisión del 99.4% con un tiempo de inferencia de 0.7271 ms, mientras que la CNN Multimodal logró una precisión ligeramente superior pero requirió significativamente más tiempo de inferencia. Estos hallazgos sugieren que Surformer v1 ofrece un equilibrio convincente entre precisión, eficiencia y costo computacional para el reconocimiento de materiales de superficie. Los resultados también subrayan la efectividad de integrar el aprendizaje de características, la atención cruzada y la fusión basada en transformadores para capturar las fortalezas complementarias de las modalidades táctiles y visuales.