Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas
Autores: Said, Yahia; Boubaker, Sahbi; Altowaijri, Saleh M.; Alsheikhy, Ahmed A.; Atri, Mohamed
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Reconocimiento de lenguaje de señas
Traducción
Marco de aprendizaje profundo
Transformador adaptativo
Alineación temporal
Representación de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
El reconocimiento y la traducción de lenguaje de señas siguen siendo fundamentales para facilitar la comunicación entre las comunidades sordas y oyentes. Sin embargo, la traducción de lenguaje de señas de extremo a extremo (SLT) enfrenta importantes desafíos, incluida la débil correspondencia temporal entre los fotogramas de video del lenguaje de señas (SL) y las anotaciones de glosas, y la complejidad de la alineación de secuencias entre videos largos de SL y oraciones en lenguaje natural. En este documento, proponemos un marco de aprendizaje profundo basado en Adaptative Transformer (ADTR) que mejora el procesamiento de videos de SL para una traducción de SL robusta y eficiente. El modelo propuesto incorpora tres módulos novedosos: Máscara Adaptativa (AM), Autoatención de Clip Local (LCSA) y Fusión Adaptativa (AF) para optimizar la representación de características. El módulo AM elimina dinámicamente representaciones redundantes de fotogramas de video, mejorando la alineación temporal, mientras que el módulo LCSA aprende representaciones jerárquicas en niveles de clips locales y videos completos utilizando un mecanismo de autoatención refinado. Además, el módulo AF fusiona características temporales y espaciales multiescala para mejorar la robustez del modelo. A diferencia de los modelos convencionales de SLT, nuestro marco elimina la dependencia de las anotaciones de glosas, lo que permite la traducción directa de secuencias de video de SL a texto en lenguaje hablado. El método propuesto se evaluó utilizando el conjunto de datos ArabSign, demostrando un rendimiento de vanguardia en precisión de traducción, eficiencia de procesamiento y aplicabilidad en tiempo real. Los resultados obtenidos confirman que ADTR es una solución de aprendizaje profundo altamente efectiva y escalable para el reconocimiento continuo de lenguaje de señas, posicionándola como un enfoque prometedor impulsado por IA para aplicaciones asistenciales del mundo real.
Descripción
El reconocimiento y la traducción de lenguaje de señas siguen siendo fundamentales para facilitar la comunicación entre las comunidades sordas y oyentes. Sin embargo, la traducción de lenguaje de señas de extremo a extremo (SLT) enfrenta importantes desafíos, incluida la débil correspondencia temporal entre los fotogramas de video del lenguaje de señas (SL) y las anotaciones de glosas, y la complejidad de la alineación de secuencias entre videos largos de SL y oraciones en lenguaje natural. En este documento, proponemos un marco de aprendizaje profundo basado en Adaptative Transformer (ADTR) que mejora el procesamiento de videos de SL para una traducción de SL robusta y eficiente. El modelo propuesto incorpora tres módulos novedosos: Máscara Adaptativa (AM), Autoatención de Clip Local (LCSA) y Fusión Adaptativa (AF) para optimizar la representación de características. El módulo AM elimina dinámicamente representaciones redundantes de fotogramas de video, mejorando la alineación temporal, mientras que el módulo LCSA aprende representaciones jerárquicas en niveles de clips locales y videos completos utilizando un mecanismo de autoatención refinado. Además, el módulo AF fusiona características temporales y espaciales multiescala para mejorar la robustez del modelo. A diferencia de los modelos convencionales de SLT, nuestro marco elimina la dependencia de las anotaciones de glosas, lo que permite la traducción directa de secuencias de video de SL a texto en lenguaje hablado. El método propuesto se evaluó utilizando el conjunto de datos ArabSign, demostrando un rendimiento de vanguardia en precisión de traducción, eficiencia de procesamiento y aplicabilidad en tiempo real. Los resultados obtenidos confirman que ADTR es una solución de aprendizaje profundo altamente efectiva y escalable para el reconocimiento continuo de lenguaje de señas, posicionándola como un enfoque prometedor impulsado por IA para aplicaciones asistenciales del mundo real.