logo móvil
Contáctanos

Mediapipe implementa Landmarks con RNN para el reconocimiento de lenguaje de señas dinámico

Autores: Samaan, Gerges H.; Wadie, Abanoub R.; Attia, Abanoub K.; Asaad, Abanoub M.; Kamel, Andrew E.; Slim, Salwa O.; Abdallah, Mohamed S.; Cho, Young-Im

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Mediapipe implementa Landmarks con RNN para el reconocimiento de lenguaje de señas dinámico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Comunicación
Comunidades con discapacidad auditiva
Lenguaje de señas dinámico
Gestos con las manos
Modelos RNN
DSL10-Dataset

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones


Descripción
La comunicación para comunidades con discapacidad auditiva es una tarea sumamente desafiante, por eso se desarrolló el lenguaje de signos dinámico. Los gestos de mano y movimientos corporales se utilizan para representar vocabulario en el lenguaje de signos dinámico. Sin embargo, el lenguaje de signos dinámico enfrenta algunos desafíos, como reconocer gestos de mano complicados y baja precisión de reconocimiento, además de la dependencia de una serie de fotogramas para cada vocabulario. Este documento utilizó MediaPipe en conjunto con modelos RNN para abordar los problemas de reconocimiento del lenguaje de signos dinámico. MediaPipe se utilizó para determinar la ubicación, forma y orientación extrayendo puntos clave de las manos, el cuerpo y la cara. Los modelos RNN como GRU, LSTM y Bi-directional LSTM abordan el problema de la dependencia de fotogramas en el movimiento de signos. Debido a la falta de conjuntos de datos basados en video para el lenguaje de signos, se creó el Conjunto de Datos DSL10. El Conjunto de Datos DSL10 contiene diez vocabularios que fueron repetidos 75 veces por cinco signantes proporcionando los pasos guía para crear uno. Se realizaron dos experimentos en nuestro conjunto de datos (Conjunto de Datos DSL10) utilizando modelos RNN para comparar la precisión del reconocimiento del lenguaje de signos dinámico con y sin el uso de puntos clave de la cara. Los experimentos revelaron que nuestro modelo tenía una precisión de más del 99%.

Otros recursos que podrían interesarte

Temas Virtualpro