logo móvil
Contáctanos

Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas

Autores: Said, Yahia; Boubaker, Sahbi; Altowaijri, Saleh M.; Alsheikhy, Ahmed A.; Atri, Mohamed

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Reconocimiento de lenguaje de señas
Traducción
Marco de aprendizaje profundo
Transformador adaptativo
Alineación temporal
Representación de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
El reconocimiento y la traducción de lenguaje de señas siguen siendo fundamentales para facilitar la comunicación entre las comunidades sordas y oyentes. Sin embargo, la traducción de lenguaje de señas de extremo a extremo (SLT) enfrenta importantes desafíos, incluida la débil correspondencia temporal entre los fotogramas de video del lenguaje de señas (SL) y las anotaciones de glosas, y la complejidad de la alineación de secuencias entre videos largos de SL y oraciones en lenguaje natural. En este documento, proponemos un marco de aprendizaje profundo basado en Adaptative Transformer (ADTR) que mejora el procesamiento de videos de SL para una traducción de SL robusta y eficiente. El modelo propuesto incorpora tres módulos novedosos: Máscara Adaptativa (AM), Autoatención de Clip Local (LCSA) y Fusión Adaptativa (AF) para optimizar la representación de características. El módulo AM elimina dinámicamente representaciones redundantes de fotogramas de video, mejorando la alineación temporal, mientras que el módulo LCSA aprende representaciones jerárquicas en niveles de clips locales y videos completos utilizando un mecanismo de autoatención refinado. Además, el módulo AF fusiona características temporales y espaciales multiescala para mejorar la robustez del modelo. A diferencia de los modelos convencionales de SLT, nuestro marco elimina la dependencia de las anotaciones de glosas, lo que permite la traducción directa de secuencias de video de SL a texto en lenguaje hablado. El método propuesto se evaluó utilizando el conjunto de datos ArabSign, demostrando un rendimiento de vanguardia en precisión de traducción, eficiencia de procesamiento y aplicabilidad en tiempo real. Los resultados obtenidos confirman que ADTR es una solución de aprendizaje profundo altamente efectiva y escalable para el reconocimiento continuo de lenguaje de señas, posicionándola como un enfoque prometedor impulsado por IA para aplicaciones asistenciales del mundo real.

Otros recursos que podrían interesarte

Temas Virtualpro