logo móvil
Contáctanos

Reconocimiento de Lengua de Señas de Doble Vista a través de Fusión de Características Guiadas por Vista Frontal para Entrenamiento Automático de Lengua de Señas

Autores: Jing, Siyuan; Yan, Gaorong

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Reconocimiento de Lengua de Señas de Doble Vista a través de Fusión de Características Guiadas por Vista Frontal para Entrenamiento Automático de Lengua de Señas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Entrenamiento automático de lengua de señas
Reconocimiento de lengua de señas a nivel de palabras
Señales de lengua de señas
Palabras en lengua de señas
Videos de lengua de señas en doble vista
Red neuronal profunda

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La base de un sistema de entrenamiento automático de lenguaje de señas (ASLT) radica en el reconocimiento de lenguaje de señas a nivel de palabra (WSLR), que se refiere a la traducción de señales de lenguaje de señas capturadas en palabras de señas. Sin embargo, hay dos problemas clave que deben abordarse en este campo: (1) el número de palabras de señas en todos los conjuntos de datos públicos de lenguaje de señas es demasiado pequeño y las palabras no coinciden con escenarios del mundo real, y (2) generalmente solo se proporcionan videos de señas de vista única, lo que dificulta resolver el problema de la oclusión de las manos. En este trabajo, diseñamos un algoritmo eficiente para WSLR que se entrena en nuestro recientemente lanzado conjunto de datos NationalCSL-DP. El algoritmo primero realiza una alineación a nivel de fotograma de videos de señas de vista dual. Luego, se emplea una red neuronal profunda de dos etapas para extraer las características espaciotemporales de los signatarios, incluyendo los movimientos de las manos y los gestos corporales. Además, se propone una estrategia de fusión temprana guiada por vista frontal (FvGEF) para la fusión efectiva de características de diferentes vistas. Se llevaron a cabo extensos experimentos para evaluar el algoritmo. Los resultados muestran que el algoritmo propuesto superó significativamente a los algoritmos existentes de reconocimiento de lenguaje de señas de vista dual. En comparación con varios métodos de vanguardia, el algoritmo propuesto logra una precisión Top-1 en el conjunto de datos NationalCSL6707 que es 10.29 y 11.38 más alta que MViT y CNN + Transformer, respectivamente.

Otros recursos que podrían interesarte

Temas Virtualpro