Mediapipe implementa Landmarks con RNN para el reconocimiento de lenguaje de señas dinámico
Autores: Samaan, Gerges H.; Wadie, Abanoub R.; Attia, Abanoub K.; Asaad, Abanoub M.; Kamel, Andrew E.; Slim, Salwa O.; Abdallah, Mohamed S.; Cho, Young-Im
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Mediapipe implementa Landmarks con RNN para el reconocimiento de lenguaje de señas dinámico
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Comunicación
Comunidades con discapacidad auditiva
Lenguaje de señas dinámico
Gestos con las manos
Modelos RNN
DSL10-Dataset
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
La comunicación para comunidades con discapacidad auditiva es una tarea sumamente desafiante, por eso se desarrolló el lenguaje de signos dinámico. Los gestos de mano y movimientos corporales se utilizan para representar vocabulario en el lenguaje de signos dinámico. Sin embargo, el lenguaje de signos dinámico enfrenta algunos desafíos, como reconocer gestos de mano complicados y baja precisión de reconocimiento, además de la dependencia de una serie de fotogramas para cada vocabulario. Este documento utilizó MediaPipe en conjunto con modelos RNN para abordar los problemas de reconocimiento del lenguaje de signos dinámico. MediaPipe se utilizó para determinar la ubicación, forma y orientación extrayendo puntos clave de las manos, el cuerpo y la cara. Los modelos RNN como GRU, LSTM y Bi-directional LSTM abordan el problema de la dependencia de fotogramas en el movimiento de signos. Debido a la falta de conjuntos de datos basados en video para el lenguaje de signos, se creó el Conjunto de Datos DSL10. El Conjunto de Datos DSL10 contiene diez vocabularios que fueron repetidos 75 veces por cinco signantes proporcionando los pasos guía para crear uno. Se realizaron dos experimentos en nuestro conjunto de datos (Conjunto de Datos DSL10) utilizando modelos RNN para comparar la precisión del reconocimiento del lenguaje de signos dinámico con y sin el uso de puntos clave de la cara. Los experimentos revelaron que nuestro modelo tenía una precisión de más del 99%.
Descripción
La comunicación para comunidades con discapacidad auditiva es una tarea sumamente desafiante, por eso se desarrolló el lenguaje de signos dinámico. Los gestos de mano y movimientos corporales se utilizan para representar vocabulario en el lenguaje de signos dinámico. Sin embargo, el lenguaje de signos dinámico enfrenta algunos desafíos, como reconocer gestos de mano complicados y baja precisión de reconocimiento, además de la dependencia de una serie de fotogramas para cada vocabulario. Este documento utilizó MediaPipe en conjunto con modelos RNN para abordar los problemas de reconocimiento del lenguaje de signos dinámico. MediaPipe se utilizó para determinar la ubicación, forma y orientación extrayendo puntos clave de las manos, el cuerpo y la cara. Los modelos RNN como GRU, LSTM y Bi-directional LSTM abordan el problema de la dependencia de fotogramas en el movimiento de signos. Debido a la falta de conjuntos de datos basados en video para el lenguaje de signos, se creó el Conjunto de Datos DSL10. El Conjunto de Datos DSL10 contiene diez vocabularios que fueron repetidos 75 veces por cinco signantes proporcionando los pasos guía para crear uno. Se realizaron dos experimentos en nuestro conjunto de datos (Conjunto de Datos DSL10) utilizando modelos RNN para comparar la precisión del reconocimiento del lenguaje de signos dinámico con y sin el uso de puntos clave de la cara. Los experimentos revelaron que nuestro modelo tenía una precisión de más del 99%.