Clasificación de Gestos de Mano Multimodal para la Interacción Humano-Coche
Autores: D"Eusanio, Andrea; Simoni, Alessandro; Pini, Stefano; Borghi, Guido; Vezzani, Roberto; Cucchiara, Rita
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Clasificación de Gestos de Mano Multimodal para la Interacción Humano-Coche
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sensores
IU naturales
RGB-D
Gestos de mano
Redes Neuronales Convolucionales
Contexto automotriz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La reciente expansión de sensores RGB-D e infrarrojos de bajo costo y alta calidad ha apoyado el desarrollo de Interfaces de Usuario Naturales (NUIs) en las que la interacción se lleva a cabo sin el uso de dispositivos físicos como teclados y ratones. En este artículo, proponemos una NUI basada en gestos de mano dinámicos, adquiridos con sensores RGB, de profundidad e infrarrojos. El sistema se desarrolla para el desafiante contexto automotriz, con el objetivo de reducir la distracción del conductor durante la actividad de conducción. Específicamente, el marco propuesto se basa en una combinación multimodal de Redes Neuronales Convolucionales cuyo input está representado por imágenes de profundidad e infrarrojas, logrando un buen nivel de invariancia a la luz, un elemento clave en sistemas de visión basados en automóviles. Probamos nuestro sistema en un reciente conjunto de datos multimodal recopilado en un entorno automotriz realista, colocando los sensores en un punto de vista innovador, es decir, en la consola del túnel mirando hacia arriba. El conjunto de datos consiste en una gran cantidad de cuadros etiquetados que contienen 12 gestos dinámicos realizados por múltiples sujetos, lo que lo hace adecuado para enfoques basados en aprendizaje profundo. Además, probamos el sistema en un conjunto de datos público bien conocido, creado para la interacción entre el conductor y el automóvil. Los resultados experimentales en ambos conjuntos de datos revelan la eficacia y el rendimiento en tiempo real del método propuesto.
Descripción
La reciente expansión de sensores RGB-D e infrarrojos de bajo costo y alta calidad ha apoyado el desarrollo de Interfaces de Usuario Naturales (NUIs) en las que la interacción se lleva a cabo sin el uso de dispositivos físicos como teclados y ratones. En este artículo, proponemos una NUI basada en gestos de mano dinámicos, adquiridos con sensores RGB, de profundidad e infrarrojos. El sistema se desarrolla para el desafiante contexto automotriz, con el objetivo de reducir la distracción del conductor durante la actividad de conducción. Específicamente, el marco propuesto se basa en una combinación multimodal de Redes Neuronales Convolucionales cuyo input está representado por imágenes de profundidad e infrarrojas, logrando un buen nivel de invariancia a la luz, un elemento clave en sistemas de visión basados en automóviles. Probamos nuestro sistema en un reciente conjunto de datos multimodal recopilado en un entorno automotriz realista, colocando los sensores en un punto de vista innovador, es decir, en la consola del túnel mirando hacia arriba. El conjunto de datos consiste en una gran cantidad de cuadros etiquetados que contienen 12 gestos dinámicos realizados por múltiples sujetos, lo que lo hace adecuado para enfoques basados en aprendizaje profundo. Además, probamos el sistema en un conjunto de datos público bien conocido, creado para la interacción entre el conductor y el automóvil. Los resultados experimentales en ambos conjuntos de datos revelan la eficacia y el rendimiento en tiempo real del método propuesto.