logo móvil
Contáctanos

Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo

Autores: Lu, Chenghong; Kozakai, Misaki; Jing, Lei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de lenguaje de señas
Guantes de datos portátiles
Visión por computadora
Cámara monocular
Fusión de datos
Datos multimodales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones


Descripción
El reconocimiento del lenguaje de señas es esencial en la comunicación de personas con discapacidad auditiva. Los guantes de datos portátiles y la visión por computadora son soluciones parcialmente complementarias. Sin embargo, el reconocimiento del lenguaje de señas utilizando una cámara monocromática general sufre de problemas de oclusión y precisión en el reconocimiento. En esta investigación, nuestro objetivo es mejorar la precisión a través de la fusión de datos de sensores de flexión de 2 ejes y visión por computadora. Obtenemos la información clave de puntos de la mano de los movimientos del lenguaje de señas capturados por una cámara RGB monocromática y utilizamos estos puntos clave para calcular los ángulos de las articulaciones de la mano. El sistema logra una mayor precisión de reconocimiento al fusionar datos multimodales del esqueleto, ángulos de las articulaciones y curvatura de los dedos. Para fusionar eficazmente los datos, combinamos datos multimodales y utilizamos CNN-BiLSTM para extraer características efectivas para el reconocimiento del lenguaje de señas. CNN es un método que puede aprender información espacial, y BiLSTM puede aprender datos de series temporales. Creamos un sistema de recopilación de datos con guantes de datos con sensores de flexión y cámaras. Se recopiló un conjunto de datos que contiene 32 movimientos del lenguaje de señas japonés de siete personas, incluidos 27 movimientos estáticos y 5 movimientos dinámicos. Cada movimiento se repite 10 veces, con un total de aproximadamente 112 minutos. En particular, obtuvimos datos que contienen oclusiones. Los resultados experimentales muestran que nuestro sistema puede fusionar información multimodal y tener un mejor rendimiento que utilizando solo información esquelética, con la precisión aumentando de 68.34% a 84.13%.

Otros recursos que podrían interesarte

Temas Virtualpro