logo móvil
Contáctanos

Surformer v1: Clasificación de Superficies Basada en Transformadores Usando Características Táctiles y Visuales

Autores: Kansana, Manish; Hossain, Elias; Rahimi, Shahram; Amiri Golilarz, Noorbakhsh

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Surformer v1: Clasificación de Superficies Basada en Transformadores Usando Características Táctiles y Visuales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de materiales de superficie
Arquitectura basada en transformadores
Características táctiles
Incrustaciones visuales
Fusión multimodal
Eficiencia computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El reconocimiento de materiales de superficie es un componente clave en la percepción robótica y la interacción física, particularmente al aprovechar tanto las entradas sensoriales táctiles como visuales. En este trabajo, proponemos Surformer v1, una arquitectura basada en transformadores diseñada para la clasificación de superficies utilizando características táctiles estructuradas y embeddings visuales reducidos mediante Análisis de Componentes Principales (PCA) extraídos a través de ResNet 50. El modelo integra codificadores específicos de modalidad con capas de atención cruzada, lo que permite interacciones ricas entre la visión y el tacto. Actualmente, los modelos de aprendizaje profundo de última generación para tareas de visión han logrado un rendimiento notable. Con esto en mente, nuestro primer conjunto de experimentos se centró exclusivamente en la clasificación de superficies solo táctiles. Utilizando ingeniería de características, entrenamos y evaluamos múltiples modelos de aprendizaje automático, evaluando su precisión y tiempo de inferencia. Luego implementamos un modelo de Transformer solo de codificador adaptado para características táctiles. Este modelo no solo logra la mayor precisión, sino que también demostró un tiempo de inferencia significativamente más rápido en comparación con otros modelos evaluados, destacando su potencial para aplicaciones en tiempo real. Para ampliar esta investigación, introdujimos una configuración de fusión multimodal combinando entradas visuales y táctiles. Entrenamos tanto Surformer v1 (utilizando características estructuradas) como una CNN Multimodal (utilizando imágenes en bruto) para examinar el impacto del aprendizaje multimodal basado en características frente al basado en imágenes en la precisión de clasificación y la eficiencia computacional. Los resultados mostraron que Surformer v1 logró una precisión del 99.4% con un tiempo de inferencia de 0.7271 ms, mientras que la CNN Multimodal logró una precisión ligeramente superior pero requirió significativamente más tiempo de inferencia. Estos hallazgos sugieren que Surformer v1 ofrece un equilibrio convincente entre precisión, eficiencia y costo computacional para el reconocimiento de materiales de superficie. Los resultados también subrayan la efectividad de integrar el aprendizaje de características, la atención cruzada y la fusión basada en transformadores para capturar las fortalezas complementarias de las modalidades táctiles y visuales.

Otros recursos que podrían interesarte

Temas Virtualpro