Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM
Autores: Yaseen, ; Kwon, Oh-Jin; Kim, Jaeho; Jamil, Sonain; Lee, Jinhee; Ullah, Faiz
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de gestos
Visión por computadora
Reconocimiento dinámico de gestos
Modelos de aprendizaje profundo
Datos temporales
Red LSTM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 52
Citaciones: Sin citaciones
El reconocimiento de gestos es crucial en aplicaciones basadas en visión por computadora, como el control de drones, juegos, realidad virtual y aumentada (RV/RA), y seguridad, especialmente en sistemas basados en interacción humano-computadora (HCI). Hay dos tipos de sistemas de reconocimiento de gestos, es decir, estáticos y dinámicos. Sin embargo, nuestro enfoque en este documento es el reconocimiento de gestos dinámicos. En los sistemas de reconocimiento de gestos dinámicos, las secuencias de fotogramas, es decir, datos temporales, plantean desafíos significativos de procesamiento y reducen la eficiencia en comparación con los gestos estáticos. Estos datos se vuelven multidimensionales en comparación con las imágenes estáticas porque se procesan datos espaciales y temporales, lo que requiere modelos complejos de aprendizaje profundo (DL) con costos computacionales aumentados. Este artículo presenta un algoritmo novedoso de triple capa que reduce eficientemente el mapa de características 3D en vectores de fila 1D y mejora el rendimiento general. Primero, procesamos las imágenes individuales en una secuencia dada utilizando el marco de trabajo de MediaPipe y extraemos las regiones de interés (ROI). La imagen recortada procesada se pasa entonces a Inception-v3 para el extractor de características 2D. Finalmente, se utiliza una red neuronal de memoria a corto y largo plazo (LSTM) como extractor y clasificador de características temporales. Nuestro método propuesto logra una precisión promedio de más del 89.7%. Los resultados experimentales también muestran que el marco propuesto supera a los métodos existentes de vanguardia.
Descripción
El reconocimiento de gestos es crucial en aplicaciones basadas en visión por computadora, como el control de drones, juegos, realidad virtual y aumentada (RV/RA), y seguridad, especialmente en sistemas basados en interacción humano-computadora (HCI). Hay dos tipos de sistemas de reconocimiento de gestos, es decir, estáticos y dinámicos. Sin embargo, nuestro enfoque en este documento es el reconocimiento de gestos dinámicos. En los sistemas de reconocimiento de gestos dinámicos, las secuencias de fotogramas, es decir, datos temporales, plantean desafíos significativos de procesamiento y reducen la eficiencia en comparación con los gestos estáticos. Estos datos se vuelven multidimensionales en comparación con las imágenes estáticas porque se procesan datos espaciales y temporales, lo que requiere modelos complejos de aprendizaje profundo (DL) con costos computacionales aumentados. Este artículo presenta un algoritmo novedoso de triple capa que reduce eficientemente el mapa de características 3D en vectores de fila 1D y mejora el rendimiento general. Primero, procesamos las imágenes individuales en una secuencia dada utilizando el marco de trabajo de MediaPipe y extraemos las regiones de interés (ROI). La imagen recortada procesada se pasa entonces a Inception-v3 para el extractor de características 2D. Finalmente, se utiliza una red neuronal de memoria a corto y largo plazo (LSTM) como extractor y clasificador de características temporales. Nuestro método propuesto logra una precisión promedio de más del 89.7%. Los resultados experimentales también muestran que el marco propuesto supera a los métodos existentes de vanguardia.