logo móvil
Contáctanos

Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM

Autores: Yaseen, ; Kwon, Oh-Jin; Kim, Jaeho; Jamil, Sonain; Lee, Jinhee; Ullah, Faiz

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de gestos
Visión por computadora
Reconocimiento dinámico de gestos
Modelos de aprendizaje profundo
Datos temporales
Red LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 52

Citaciones: Sin citaciones


Descripción
El reconocimiento de gestos es crucial en aplicaciones basadas en visión por computadora, como el control de drones, juegos, realidad virtual y aumentada (RV/RA), y seguridad, especialmente en sistemas basados en interacción humano-computadora (HCI). Hay dos tipos de sistemas de reconocimiento de gestos, es decir, estáticos y dinámicos. Sin embargo, nuestro enfoque en este documento es el reconocimiento de gestos dinámicos. En los sistemas de reconocimiento de gestos dinámicos, las secuencias de fotogramas, es decir, datos temporales, plantean desafíos significativos de procesamiento y reducen la eficiencia en comparación con los gestos estáticos. Estos datos se vuelven multidimensionales en comparación con las imágenes estáticas porque se procesan datos espaciales y temporales, lo que requiere modelos complejos de aprendizaje profundo (DL) con costos computacionales aumentados. Este artículo presenta un algoritmo novedoso de triple capa que reduce eficientemente el mapa de características 3D en vectores de fila 1D y mejora el rendimiento general. Primero, procesamos las imágenes individuales en una secuencia dada utilizando el marco de trabajo de MediaPipe y extraemos las regiones de interés (ROI). La imagen recortada procesada se pasa entonces a Inception-v3 para el extractor de características 2D. Finalmente, se utiliza una red neuronal de memoria a corto y largo plazo (LSTM) como extractor y clasificador de características temporales. Nuestro método propuesto logra una precisión promedio de más del 89.7%. Los resultados experimentales también muestran que el marco propuesto supera a los métodos existentes de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro