Un segmentación temporal multi-clase 3DCNN-LSTM para el reconocimiento de gestos de mano
Autores: Gionfrida, Letizia; Rusli, Wan M. R.; Kedgley, Angela E.; Bharath, Anil A.
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un segmentación temporal multi-clase 3DCNN-LSTM para el reconocimiento de gestos de mano
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de gestos con la mano
Grabaciones de video RGB
Red basada en convoluciones
Unidad de memoria a largo plazo y corto plazo
Aprendizaje por transferencia
Curvas de validación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este trabajo presenta un modelo de reconocimiento de gestos manuales de múltiples clases desarrollado para identificar un conjunto de secuencias de gestos manuales a partir de grabaciones de video RGB bidimensionales, utilizando tanto la apariencia como los parámetros espacio-temporales de fotogramas consecutivos. El clasificador utiliza una red basada en convoluciones combinada con una unidad de memoria a largo plazo. Para aprovechar la necesidad de un conjunto de datos a gran escala, el modelo implementa el entrenamiento en un conjunto de datos público, adoptando una técnica conocida como aprendizaje por transferencia para ajustar finamente la arquitectura a los gestos manuales relevantes. Las curvas de validación realizadas sobre un tamaño de lote de 64 indican una precisión del 93.95% (+/-0.37) con un índice de Jaccard medio de 0.812 (+/-0.105) para 22 participantes. La arquitectura ajustada finamente ilustra la posibilidad de refinar un modelo con un pequeño conjunto de datos (113,410 fotogramas de imagen completamente etiquetados) para cubrir gestos manuales previamente desconocidos. La principal contribución de este trabajo incluye una red personalizada de reconocimiento de gestos manuales impulsada por secuencias de video RGB monoculares que superan a los modelos previos de segmentación temporal, adoptando una arquitectura de tamaño pequeño que facilita su amplia adopción.
Descripción
Este trabajo presenta un modelo de reconocimiento de gestos manuales de múltiples clases desarrollado para identificar un conjunto de secuencias de gestos manuales a partir de grabaciones de video RGB bidimensionales, utilizando tanto la apariencia como los parámetros espacio-temporales de fotogramas consecutivos. El clasificador utiliza una red basada en convoluciones combinada con una unidad de memoria a largo plazo. Para aprovechar la necesidad de un conjunto de datos a gran escala, el modelo implementa el entrenamiento en un conjunto de datos público, adoptando una técnica conocida como aprendizaje por transferencia para ajustar finamente la arquitectura a los gestos manuales relevantes. Las curvas de validación realizadas sobre un tamaño de lote de 64 indican una precisión del 93.95% (+/-0.37) con un índice de Jaccard medio de 0.812 (+/-0.105) para 22 participantes. La arquitectura ajustada finamente ilustra la posibilidad de refinar un modelo con un pequeño conjunto de datos (113,410 fotogramas de imagen completamente etiquetados) para cubrir gestos manuales previamente desconocidos. La principal contribución de este trabajo incluye una red personalizada de reconocimiento de gestos manuales impulsada por secuencias de video RGB monoculares que superan a los modelos previos de segmentación temporal, adoptando una arquitectura de tamaño pequeño que facilita su amplia adopción.