Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo
Autores: Lu, Chenghong; Kozakai, Misaki; Jing, Lei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de lenguaje de señas
Guantes de datos portátiles
Visión por computadora
Cámara monocular
Fusión de datos
Datos multimodales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 50
Citaciones: Sin citaciones
El reconocimiento del lenguaje de señas es esencial en la comunicación de personas con discapacidad auditiva. Los guantes de datos portátiles y la visión por computadora son soluciones parcialmente complementarias. Sin embargo, el reconocimiento del lenguaje de señas utilizando una cámara monocromática general sufre de problemas de oclusión y precisión en el reconocimiento. En esta investigación, nuestro objetivo es mejorar la precisión a través de la fusión de datos de sensores de flexión de 2 ejes y visión por computadora. Obtenemos la información clave de puntos de la mano de los movimientos del lenguaje de señas capturados por una cámara RGB monocromática y utilizamos estos puntos clave para calcular los ángulos de las articulaciones de la mano. El sistema logra una mayor precisión de reconocimiento al fusionar datos multimodales del esqueleto, ángulos de las articulaciones y curvatura de los dedos. Para fusionar eficazmente los datos, combinamos datos multimodales y utilizamos CNN-BiLSTM para extraer características efectivas para el reconocimiento del lenguaje de señas. CNN es un método que puede aprender información espacial, y BiLSTM puede aprender datos de series temporales. Creamos un sistema de recopilación de datos con guantes de datos con sensores de flexión y cámaras. Se recopiló un conjunto de datos que contiene 32 movimientos del lenguaje de señas japonés de siete personas, incluidos 27 movimientos estáticos y 5 movimientos dinámicos. Cada movimiento se repite 10 veces, con un total de aproximadamente 112 minutos. En particular, obtuvimos datos que contienen oclusiones. Los resultados experimentales muestran que nuestro sistema puede fusionar información multimodal y tener un mejor rendimiento que utilizando solo información esquelética, con la precisión aumentando de 68.34% a 84.13%.
Descripción
El reconocimiento del lenguaje de señas es esencial en la comunicación de personas con discapacidad auditiva. Los guantes de datos portátiles y la visión por computadora son soluciones parcialmente complementarias. Sin embargo, el reconocimiento del lenguaje de señas utilizando una cámara monocromática general sufre de problemas de oclusión y precisión en el reconocimiento. En esta investigación, nuestro objetivo es mejorar la precisión a través de la fusión de datos de sensores de flexión de 2 ejes y visión por computadora. Obtenemos la información clave de puntos de la mano de los movimientos del lenguaje de señas capturados por una cámara RGB monocromática y utilizamos estos puntos clave para calcular los ángulos de las articulaciones de la mano. El sistema logra una mayor precisión de reconocimiento al fusionar datos multimodales del esqueleto, ángulos de las articulaciones y curvatura de los dedos. Para fusionar eficazmente los datos, combinamos datos multimodales y utilizamos CNN-BiLSTM para extraer características efectivas para el reconocimiento del lenguaje de señas. CNN es un método que puede aprender información espacial, y BiLSTM puede aprender datos de series temporales. Creamos un sistema de recopilación de datos con guantes de datos con sensores de flexión y cámaras. Se recopiló un conjunto de datos que contiene 32 movimientos del lenguaje de señas japonés de siete personas, incluidos 27 movimientos estáticos y 5 movimientos dinámicos. Cada movimiento se repite 10 veces, con un total de aproximadamente 112 minutos. En particular, obtuvimos datos que contienen oclusiones. Los resultados experimentales muestran que nuestro sistema puede fusionar información multimodal y tener un mejor rendimiento que utilizando solo información esquelética, con la precisión aumentando de 68.34% a 84.13%.