Reconocimiento de Actividad a partir de Marcos RGB Solo con HPE Profundo de Cuerpo Completo
Autores: Neili Boualia, Sameh; Essoukri Ben Amara, Najoua
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Reconocimiento de Actividad a partir de Marcos RGB Solo con HPE Profundo de Cuerpo Completo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Estimación de pose
Articulaciones humanas
Redes neuronales profundas
ConvNets
Interacción humano-robot
Reconocimiento de actividades
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La estimación de pose humana (HPE) se define como el problema de la localización de las articulaciones humanas (también conocidas como puntos clave: codos, muñecas, etc.) en imágenes o videos. También se define como la búsqueda de una pose específica en el espacio de todas las articulaciones articuladas. La HPE ha recibido recientemente una atención significativa de la comunidad científica. La razón principal detrás de esta tendencia es que la estimación de pose se considera un paso clave para muchas tareas de visión por computadora. Aunque muchos enfoques han reportado resultados prometedores, este dominio sigue siendo en gran medida no resuelto debido a varios desafíos como oclusiones, articulaciones pequeñas y apenas visibles, y variaciones en la vestimenta y la iluminación. En los últimos años, se ha demostrado el poder de las redes neuronales profundas en una amplia variedad de problemas de visión por computadora y especialmente en la tarea de HPE. En este contexto, presentamos en este artículo un enfoque de HPE de cuerpo completo profundo (DFB-HPE) a partir de imágenes RGB solamente. Basado en ConvNets, se predicen quince posiciones de articulaciones humanas que pueden ser explotadas para una amplia gama de aplicaciones como el reconocimiento de gestos, el análisis del rendimiento deportivo o la interacción humano-robot. Para evaluar el modelo de estimación de pose profunda propuesto, lo aplicamos para reconocer las actividades diarias de una persona en un entorno no restringido. Por lo tanto, las características extraídas, representadas por poses estimadas profundamente, se alimentan a un clasificador SVM. Para validar la arquitectura propuesta, nuestro enfoque se prueba en dos benchmarks disponibles públicamente para la estimación de pose y el reconocimiento de actividades, a saber, los conjuntos de datos J-HMDB y CAD-60. Los resultados obtenidos demuestran la eficiencia del método propuesto basado en ConvNets y SVM y prueban cómo la estimación de pose profunda puede mejorar la precisión del reconocimiento. Mediante la comparación con métodos de vanguardia, logramos el mejor rendimiento de HPE, así como la mejor precisión de reconocimiento de actividades en el conjunto de datos CAD-60.
Descripción
La estimación de pose humana (HPE) se define como el problema de la localización de las articulaciones humanas (también conocidas como puntos clave: codos, muñecas, etc.) en imágenes o videos. También se define como la búsqueda de una pose específica en el espacio de todas las articulaciones articuladas. La HPE ha recibido recientemente una atención significativa de la comunidad científica. La razón principal detrás de esta tendencia es que la estimación de pose se considera un paso clave para muchas tareas de visión por computadora. Aunque muchos enfoques han reportado resultados prometedores, este dominio sigue siendo en gran medida no resuelto debido a varios desafíos como oclusiones, articulaciones pequeñas y apenas visibles, y variaciones en la vestimenta y la iluminación. En los últimos años, se ha demostrado el poder de las redes neuronales profundas en una amplia variedad de problemas de visión por computadora y especialmente en la tarea de HPE. En este contexto, presentamos en este artículo un enfoque de HPE de cuerpo completo profundo (DFB-HPE) a partir de imágenes RGB solamente. Basado en ConvNets, se predicen quince posiciones de articulaciones humanas que pueden ser explotadas para una amplia gama de aplicaciones como el reconocimiento de gestos, el análisis del rendimiento deportivo o la interacción humano-robot. Para evaluar el modelo de estimación de pose profunda propuesto, lo aplicamos para reconocer las actividades diarias de una persona en un entorno no restringido. Por lo tanto, las características extraídas, representadas por poses estimadas profundamente, se alimentan a un clasificador SVM. Para validar la arquitectura propuesta, nuestro enfoque se prueba en dos benchmarks disponibles públicamente para la estimación de pose y el reconocimiento de actividades, a saber, los conjuntos de datos J-HMDB y CAD-60. Los resultados obtenidos demuestran la eficiencia del método propuesto basado en ConvNets y SVM y prueban cómo la estimación de pose profunda puede mejorar la precisión del reconocimiento. Mediante la comparación con métodos de vanguardia, logramos el mejor rendimiento de HPE, así como la mejor precisión de reconocimiento de actividades en el conjunto de datos CAD-60.