Reconocimiento y clasificación de gestos en lenguaje de señas basado en cámara de eventos con redes neuronales de picos
Autores: Chen, Xuena; Su, Li; Zhao, Jinxiu; Qiu, Keni; Jiang, Na; Zhai, Guang
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento y clasificación de gestos en lenguaje de señas basado en cámara de eventos con redes neuronales de picos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de lenguaje de señas
Cámara de evento
Conjuntos de datos de gestos
Características espacio-temporales
Redes de neuronas de pico
Percepción robótica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El reconocimiento del lenguaje de señas se ha utilizado en interacciones humano-máquina, mejorando la vida de las personas con discapacidades del habla o que dependen de instrucciones no verbales. Gracias a su mayor resolución temporal, menor redundancia visual y menor consumo de energía, el uso de una cámara de eventos con un nuevo sensor de visión dinámica (DVS) muestra promesas en lo que respecta al reconocimiento del lenguaje de señas con percepción de robots y control inteligente. Aunque trabajos anteriores se han centrado en conjuntos de datos de gestos simples basados en cámaras de eventos, como DVS128Gesture, los conjuntos de datos de gestos de cámaras de eventos inspirados en el lenguaje de señas son críticos, lo que representa un gran impedimento para el desarrollo del reconocimiento del lenguaje de señas basado en cámaras de eventos. Se desea significativamente un método efectivo para extraer características espacio-temporales de los datos de eventos. En primer lugar, se proponen los conjuntos de datos de gestos de lenguaje de señas basados en eventos y los datos tienen dos fuentes: videos tradicionales de lenguaje de señas a secuencia de eventos (DVS_Sign_v2e) y DAVIS346 (DVS_Sign). En el conjunto de datos actual, los datos se dividen en cinco clasificaciones, verbos, cuantificadores, posición, cosas y personas, adaptándose a escenarios reales donde los robots brindan instrucciones o asistencia. La clasificación del lenguaje de señas se demuestra en redes neuronales de picos con un método de entrenamiento de retropropagación espacio-temporal, lo que lleva a la mejor precisión de reconocimiento del 77%. Este trabajo allana el camino para la combinación del reconocimiento de gestos de lenguaje de señas basado en cámaras de eventos y la percepción robótica para los futuros sistemas inteligentes.
Descripción
El reconocimiento del lenguaje de señas se ha utilizado en interacciones humano-máquina, mejorando la vida de las personas con discapacidades del habla o que dependen de instrucciones no verbales. Gracias a su mayor resolución temporal, menor redundancia visual y menor consumo de energía, el uso de una cámara de eventos con un nuevo sensor de visión dinámica (DVS) muestra promesas en lo que respecta al reconocimiento del lenguaje de señas con percepción de robots y control inteligente. Aunque trabajos anteriores se han centrado en conjuntos de datos de gestos simples basados en cámaras de eventos, como DVS128Gesture, los conjuntos de datos de gestos de cámaras de eventos inspirados en el lenguaje de señas son críticos, lo que representa un gran impedimento para el desarrollo del reconocimiento del lenguaje de señas basado en cámaras de eventos. Se desea significativamente un método efectivo para extraer características espacio-temporales de los datos de eventos. En primer lugar, se proponen los conjuntos de datos de gestos de lenguaje de señas basados en eventos y los datos tienen dos fuentes: videos tradicionales de lenguaje de señas a secuencia de eventos (DVS_Sign_v2e) y DAVIS346 (DVS_Sign). En el conjunto de datos actual, los datos se dividen en cinco clasificaciones, verbos, cuantificadores, posición, cosas y personas, adaptándose a escenarios reales donde los robots brindan instrucciones o asistencia. La clasificación del lenguaje de señas se demuestra en redes neuronales de picos con un método de entrenamiento de retropropagación espacio-temporal, lo que lleva a la mejor precisión de reconocimiento del 77%. Este trabajo allana el camino para la combinación del reconocimiento de gestos de lenguaje de señas basado en cámaras de eventos y la percepción robótica para los futuros sistemas inteligentes.