Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo

Autores: Lu, Chenghong; Kozakai, Misaki; Jing, Lei

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Reconocimiento de lenguaje de señas con sensores multimodales y métodos de aprendizaje profundo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de lenguaje de señas

Guantes de datos portátiles

Visión por computadora

Cámara monocular

Fusión de datos

Datos multimodales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 50

Citaciones: Sin citaciones

El reconocimiento del lenguaje de señas es esencial en la comunicación de personas con discapacidad auditiva. Los guantes de datos portátiles y la visión por computadora son soluciones parcialmente complementarias. Sin embargo, el reconocimiento del lenguaje de señas utilizando una cámara monocromática general sufre de problemas de oclusión y precisión en el reconocimiento. En esta investigación, nuestro objetivo es mejorar la precisión a través de la fusión de datos de sensores de flexión de 2 ejes y visión por computadora. Obtenemos la información clave de puntos de la mano de los movimientos del lenguaje de señas capturados por una cámara RGB monocromática y utilizamos estos puntos clave para calcular los ángulos de las articulaciones de la mano. El sistema logra una mayor precisión de reconocimiento al fusionar datos multimodales del esqueleto, ángulos de las articulaciones y curvatura de los dedos. Para fusionar eficazmente los datos, combinamos datos multimodales y utilizamos CNN-BiLSTM para extraer características efectivas para el reconocimiento del lenguaje de señas. CNN es un método que puede aprender información espacial, y BiLSTM puede aprender datos de series temporales. Creamos un sistema de recopilación de datos con guantes de datos con sensores de flexión y cámaras. Se recopiló un conjunto de datos que contiene 32 movimientos del lenguaje de señas japonés de siete personas, incluidos 27 movimientos estáticos y 5 movimientos dinámicos. Cada movimiento se repite 10 veces, con un total de aproximadamente 112 minutos. En particular, obtuvimos datos que contienen oclusiones. Los resultados experimentales muestran que nuestro sistema puede fusionar información multimodal y tener un mejor rendimiento que utilizando solo información esquelética, con la precisión aumentando de 68.34% a 84.13%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro