Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas

Autores: Said, Yahia; Boubaker, Sahbi; Altowaijri, Saleh M.; Alsheikhy, Ahmed A.; Atri, Mohamed

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Marco de aprendizaje profundo basado en transformador adaptable para el reconocimiento y traducción continuos de lenguaje de señas

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Reconocimiento de lenguaje de señas

Traducción

Marco de aprendizaje profundo

Transformador adaptativo

Alineación temporal

Representación de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

El reconocimiento y la traducción de lenguaje de señas siguen siendo fundamentales para facilitar la comunicación entre las comunidades sordas y oyentes. Sin embargo, la traducción de lenguaje de señas de extremo a extremo (SLT) enfrenta importantes desafíos, incluida la débil correspondencia temporal entre los fotogramas de video del lenguaje de señas (SL) y las anotaciones de glosas, y la complejidad de la alineación de secuencias entre videos largos de SL y oraciones en lenguaje natural. En este documento, proponemos un marco de aprendizaje profundo basado en Adaptative Transformer (ADTR) que mejora el procesamiento de videos de SL para una traducción de SL robusta y eficiente. El modelo propuesto incorpora tres módulos novedosos: Máscara Adaptativa (AM), Autoatención de Clip Local (LCSA) y Fusión Adaptativa (AF) para optimizar la representación de características. El módulo AM elimina dinámicamente representaciones redundantes de fotogramas de video, mejorando la alineación temporal, mientras que el módulo LCSA aprende representaciones jerárquicas en niveles de clips locales y videos completos utilizando un mecanismo de autoatención refinado. Además, el módulo AF fusiona características temporales y espaciales multiescala para mejorar la robustez del modelo. A diferencia de los modelos convencionales de SLT, nuestro marco elimina la dependencia de las anotaciones de glosas, lo que permite la traducción directa de secuencias de video de SL a texto en lenguaje hablado. El método propuesto se evaluó utilizando el conjunto de datos ArabSign, demostrando un rendimiento de vanguardia en precisión de traducción, eficiencia de procesamiento y aplicabilidad en tiempo real. Los resultados obtenidos confirman que ADTR es una solución de aprendizaje profundo altamente efectiva y escalable para el reconocimiento continuo de lenguaje de señas, posicionándola como un enfoque prometedor impulsado por IA para aplicaciones asistenciales del mundo real.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro