Reconocimiento de gestos estáticos de mano visual utilizando redes neuronales convolucionales
Autores: Eid, Ahmed; Schwenker, Friedhelm
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Reconocimiento de gestos estáticos de mano visual utilizando redes neuronales convolucionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Gestos con las manos
Investigación de interacción humano-máquina
Técnicas de aprendizaje profundo
Red neuronal convolucional
Reconocimiento de gestos
Redes neuronales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los gestos con las manos son una parte esencial de la comunicación e interacción entre humanos, y, por lo tanto, de las aplicaciones técnicas. El objetivo es lograr cada vez más una interacción entre humanos y computadoras que sea lo más natural posible, por ejemplo, mediante el lenguaje natural o gestos con las manos. En el contexto de la investigación de la interacción humano-máquina, estos métodos están siendo explorados cada vez más. Sin embargo, la realización de una comunicación natural entre humanos y computadoras es un gran desafío. En el campo del reconocimiento de gestos con las manos, se están explorando enfoques de investigación que utilizan hardware adicional, como guantes especiales, para clasificar gestos con alta precisión. Recientemente, se han propuesto cada vez más técnicas de aprendizaje profundo que utilizan redes neuronales artificiales para el problema del reconocimiento de gestos sin usar tales herramientas. En este contexto, exploramos en detalle el enfoque de la red neuronal convolucional (CNN) para la tarea de reconocimiento de gestos con las manos. CNN es una red neuronal profunda que se puede utilizar en los campos de procesamiento y clasificación de objetos visuales. El objetivo de este trabajo es reconocer diez tipos de gestos estáticos con las manos frente a fondos complejos y diferentes tamaños de manos basados en imágenes sin el uso de hardware adicional. Logramos buenos resultados con una arquitectura de red que consta de siete capas. A través de la ampliación de datos y la segmentación de piel, se logró un aumento significativo en la precisión del modelo. En benchmarks públicos, se han clasificado casi perfectamente dos conjuntos de datos desafiantes, con precisión de prueba del 96.5% y 96.57%.
Descripción
Los gestos con las manos son una parte esencial de la comunicación e interacción entre humanos, y, por lo tanto, de las aplicaciones técnicas. El objetivo es lograr cada vez más una interacción entre humanos y computadoras que sea lo más natural posible, por ejemplo, mediante el lenguaje natural o gestos con las manos. En el contexto de la investigación de la interacción humano-máquina, estos métodos están siendo explorados cada vez más. Sin embargo, la realización de una comunicación natural entre humanos y computadoras es un gran desafío. En el campo del reconocimiento de gestos con las manos, se están explorando enfoques de investigación que utilizan hardware adicional, como guantes especiales, para clasificar gestos con alta precisión. Recientemente, se han propuesto cada vez más técnicas de aprendizaje profundo que utilizan redes neuronales artificiales para el problema del reconocimiento de gestos sin usar tales herramientas. En este contexto, exploramos en detalle el enfoque de la red neuronal convolucional (CNN) para la tarea de reconocimiento de gestos con las manos. CNN es una red neuronal profunda que se puede utilizar en los campos de procesamiento y clasificación de objetos visuales. El objetivo de este trabajo es reconocer diez tipos de gestos estáticos con las manos frente a fondos complejos y diferentes tamaños de manos basados en imágenes sin el uso de hardware adicional. Logramos buenos resultados con una arquitectura de red que consta de siete capas. A través de la ampliación de datos y la segmentación de piel, se logró un aumento significativo en la precisión del modelo. En benchmarks públicos, se han clasificado casi perfectamente dos conjuntos de datos desafiantes, con precisión de prueba del 96.5% y 96.57%.