logo móvil
Contáctanos

Un segmentación temporal multi-clase 3DCNN-LSTM para el reconocimiento de gestos de mano

Autores: Gionfrida, Letizia; Rusli, Wan M. R.; Kedgley, Angela E.; Bharath, Anil A.

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un segmentación temporal multi-clase 3DCNN-LSTM para el reconocimiento de gestos de mano


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de gestos con la mano
Grabaciones de video RGB
Red basada en convoluciones
Unidad de memoria a largo plazo y corto plazo
Aprendizaje por transferencia
Curvas de validación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Este trabajo presenta un modelo de reconocimiento de gestos manuales de múltiples clases desarrollado para identificar un conjunto de secuencias de gestos manuales a partir de grabaciones de video RGB bidimensionales, utilizando tanto la apariencia como los parámetros espacio-temporales de fotogramas consecutivos. El clasificador utiliza una red basada en convoluciones combinada con una unidad de memoria a largo plazo. Para aprovechar la necesidad de un conjunto de datos a gran escala, el modelo implementa el entrenamiento en un conjunto de datos público, adoptando una técnica conocida como aprendizaje por transferencia para ajustar finamente la arquitectura a los gestos manuales relevantes. Las curvas de validación realizadas sobre un tamaño de lote de 64 indican una precisión del 93.95% (+/-0.37) con un índice de Jaccard medio de 0.812 (+/-0.105) para 22 participantes. La arquitectura ajustada finamente ilustra la posibilidad de refinar un modelo con un pequeño conjunto de datos (113,410 fotogramas de imagen completamente etiquetados) para cubrir gestos manuales previamente desconocidos. La principal contribución de este trabajo incluye una red personalizada de reconocimiento de gestos manuales impulsada por secuencias de video RGB monoculares que superan a los modelos previos de segmentación temporal, adoptando una arquitectura de tamaño pequeño que facilita su amplia adopción.

Otros recursos que podrían interesarte

Temas Virtualpro