Redes neuronales profundas generales y basadas en gráficos para el reconocimiento de lenguaje de señas basado en esqueletos
Autores: Miah, Abu Saleh Musa; Hasan, Md. Al Mehedi; Jang, Si-Woong; Lee, Hyoun-Sup; Shin, Jungpil
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Redes neuronales profundas generales y basadas en gráficos para el reconocimiento de lenguaje de señas basado en esqueletos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de lenguaje de señas
Basado en esqueleto
Red neuronal profunda
Puntos clave
Precisión de rendimiento
Generalizabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
El reconocimiento del lenguaje de señas (SLR) tiene como objetivo unir a las comunidades con discapacidad del habla y las comunidades generales mediante el reconocimiento de signos en videos dados. Sin embargo, debido al complejo fondo, iluminación y estructuras de sujetos en los videos, los investigadores todavía enfrentan desafíos en el desarrollo de sistemas efectivos de SLR. Muchos investigadores han buscado recientemente desarrollar sistemas de reconocimiento de lenguaje de señas basados en esqueletos para superar la variación de sujetos y fondos en videos de gestos manuales. Sin embargo, el SLR basado en esqueletos aún está en exploración, principalmente debido a la falta de información y anotaciones de puntos clave de la mano. Más recientemente, los investigadores han incluido información corporal y facial junto con información de gestos de mano para SLR; sin embargo, la precisión de rendimiento obtenida y las propiedades de generalizabilidad siguen siendo insatisfactorias. En este documento, proponemos una red neuronal profunda basada en gráficos de múltiples flujos (SL-GDN) para un sistema de SLR basado en esqueletos para superar los problemas mencionados anteriormente. El propósito principal del enfoque SL-GDN propuesto es mejorar la generalizabilidad y la precisión de rendimiento del sistema de SLR manteniendo un bajo costo computacional basado en la pose del cuerpo humano en forma de ubicaciones de puntos de referencia en 2D. Primero construimos un gráfico de esqueleto basado en 27 puntos clave de todo el cuerpo seleccionados entre 67 puntos clave para abordar el problema del alto costo computacional. Luego, utilizamos el SL-GDN de múltiples flujos para extraer características del gráfico de esqueleto de todo el cuerpo considerando cuatro flujos. Finalmente, concatenamos las cuatro características diferentes y aplicamos un módulo de clasificación para refinar las características y reconocer las clases de signos correspondientes. Nuestro método de construcción de gráficos basado en datos aumenta la flexibilidad del sistema y aporta una alta generalizabilidad, lo que le permite adaptarse a datos variados. Utilizamos dos conjuntos de datos de referencia de SLR a gran escala para evaluar el modelo propuesto: el conjunto de datos de Lengua de Señas Turca (AUTSL) y Lengua de Señas China (CSL). Los resultados de precisión de rendimiento reportados demuestran la destacada capacidad del modelo propuesto, y creemos que será considerado una gran innovación en el dominio de SLR.
Descripción
El reconocimiento del lenguaje de señas (SLR) tiene como objetivo unir a las comunidades con discapacidad del habla y las comunidades generales mediante el reconocimiento de signos en videos dados. Sin embargo, debido al complejo fondo, iluminación y estructuras de sujetos en los videos, los investigadores todavía enfrentan desafíos en el desarrollo de sistemas efectivos de SLR. Muchos investigadores han buscado recientemente desarrollar sistemas de reconocimiento de lenguaje de señas basados en esqueletos para superar la variación de sujetos y fondos en videos de gestos manuales. Sin embargo, el SLR basado en esqueletos aún está en exploración, principalmente debido a la falta de información y anotaciones de puntos clave de la mano. Más recientemente, los investigadores han incluido información corporal y facial junto con información de gestos de mano para SLR; sin embargo, la precisión de rendimiento obtenida y las propiedades de generalizabilidad siguen siendo insatisfactorias. En este documento, proponemos una red neuronal profunda basada en gráficos de múltiples flujos (SL-GDN) para un sistema de SLR basado en esqueletos para superar los problemas mencionados anteriormente. El propósito principal del enfoque SL-GDN propuesto es mejorar la generalizabilidad y la precisión de rendimiento del sistema de SLR manteniendo un bajo costo computacional basado en la pose del cuerpo humano en forma de ubicaciones de puntos de referencia en 2D. Primero construimos un gráfico de esqueleto basado en 27 puntos clave de todo el cuerpo seleccionados entre 67 puntos clave para abordar el problema del alto costo computacional. Luego, utilizamos el SL-GDN de múltiples flujos para extraer características del gráfico de esqueleto de todo el cuerpo considerando cuatro flujos. Finalmente, concatenamos las cuatro características diferentes y aplicamos un módulo de clasificación para refinar las características y reconocer las clases de signos correspondientes. Nuestro método de construcción de gráficos basado en datos aumenta la flexibilidad del sistema y aporta una alta generalizabilidad, lo que le permite adaptarse a datos variados. Utilizamos dos conjuntos de datos de referencia de SLR a gran escala para evaluar el modelo propuesto: el conjunto de datos de Lengua de Señas Turca (AUTSL) y Lengua de Señas China (CSL). Los resultados de precisión de rendimiento reportados demuestran la destacada capacidad del modelo propuesto, y creemos que será considerado una gran innovación en el dominio de SLR.