Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM

Autores: Yaseen, ; Kwon, Oh-Jin; Kim, Jaeho; Jamil, Sonain; Lee, Jinhee; Ullah, Faiz

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Próxima generación de reconocimiento dinámico de gestos manuales: MediaPipe, Inception-v3 y modelo mejorado de aprendizaje profundo basado en LSTM

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de gestos

Visión por computadora

Reconocimiento dinámico de gestos

Modelos de aprendizaje profundo

Datos temporales

Red LSTM

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 52

Citaciones: Sin citaciones

El reconocimiento de gestos es crucial en aplicaciones basadas en visión por computadora, como el control de drones, juegos, realidad virtual y aumentada (RV/RA), y seguridad, especialmente en sistemas basados en interacción humano-computadora (HCI). Hay dos tipos de sistemas de reconocimiento de gestos, es decir, estáticos y dinámicos. Sin embargo, nuestro enfoque en este documento es el reconocimiento de gestos dinámicos. En los sistemas de reconocimiento de gestos dinámicos, las secuencias de fotogramas, es decir, datos temporales, plantean desafíos significativos de procesamiento y reducen la eficiencia en comparación con los gestos estáticos. Estos datos se vuelven multidimensionales en comparación con las imágenes estáticas porque se procesan datos espaciales y temporales, lo que requiere modelos complejos de aprendizaje profundo (DL) con costos computacionales aumentados. Este artículo presenta un algoritmo novedoso de triple capa que reduce eficientemente el mapa de características 3D en vectores de fila 1D y mejora el rendimiento general. Primero, procesamos las imágenes individuales en una secuencia dada utilizando el marco de trabajo de MediaPipe y extraemos las regiones de interés (ROI). La imagen recortada procesada se pasa entonces a Inception-v3 para el extractor de características 2D. Finalmente, se utiliza una red neuronal de memoria a corto y largo plazo (LSTM) como extractor y clasificador de características temporales. Nuestro método propuesto logra una precisión promedio de más del 89.7%. Los resultados experimentales también muestran que el marco propuesto supera a los métodos existentes de vanguardia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro