Fusión de CNN 2D y DenseNet 3D para reconocimiento de gestos dinámicos
Autores: Zhang, Erhu; Xue, Botao; Cao, Fangzhou; Duan, Jinghong; Lin, Guangfeng; Lei, Yifei
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Fusión de CNN 2D y DenseNet 3D para reconocimiento de gestos dinámicos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de gestos
Gesto dinámico
Red neuronal convolucional
Modelo DenseNet
Movimiento espacio-temporal
Rendimiento de reconocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
El reconocimiento de gestos se ha aplicado en muchos campos ya que es un método natural de comunicación entre humanos y computadoras. Sin embargo, el reconocimiento de gestos dinámicos sigue siendo un tema desafiante debido a la complejidad de la información de perturbación y de movimiento. En este documento, proponemos un método efectivo de reconocimiento de gestos dinámicos al fusionar los resultados de predicción de un modelo de red neuronal convolucional (CNN) de representación de movimiento bidimensional (2D) y un modelo de red convolucional densa tridimensional (3D). Primero, para obtener una representación de movimiento de gestos compacta y discriminativa, se emplearon la imagen de historial de movimiento (MHI) y la técnica de pseudo-coloración para integrar las secuencias de movimiento espacio-temporales en una imagen de fotograma, antes de alimentarlas en un modelo de CNN 2D para la clasificación de gestos. A continuación, se utilizó el modelo 3D DenseNet propuesto para extraer características espacio-temporales directamente de videos de gestos Rojo, Verde, Azul (RGB). Finalmente, los resultados de predicción de los modelos profundos 2D y 3D propuestos se mezclaron para mejorar el rendimiento de reconocimiento. Los resultados experimentales en dos conjuntos de datos públicos demuestran la efectividad de nuestro método propuesto.
Descripción
El reconocimiento de gestos se ha aplicado en muchos campos ya que es un método natural de comunicación entre humanos y computadoras. Sin embargo, el reconocimiento de gestos dinámicos sigue siendo un tema desafiante debido a la complejidad de la información de perturbación y de movimiento. En este documento, proponemos un método efectivo de reconocimiento de gestos dinámicos al fusionar los resultados de predicción de un modelo de red neuronal convolucional (CNN) de representación de movimiento bidimensional (2D) y un modelo de red convolucional densa tridimensional (3D). Primero, para obtener una representación de movimiento de gestos compacta y discriminativa, se emplearon la imagen de historial de movimiento (MHI) y la técnica de pseudo-coloración para integrar las secuencias de movimiento espacio-temporales en una imagen de fotograma, antes de alimentarlas en un modelo de CNN 2D para la clasificación de gestos. A continuación, se utilizó el modelo 3D DenseNet propuesto para extraer características espacio-temporales directamente de videos de gestos Rojo, Verde, Azul (RGB). Finalmente, los resultados de predicción de los modelos profundos 2D y 3D propuestos se mezclaron para mejorar el rendimiento de reconocimiento. Los resultados experimentales en dos conjuntos de datos públicos demuestran la efectividad de nuestro método propuesto.