Evaluando el rendimiento de las redes neuronales convolucionales móviles para el análisis de reconocimiento de acciones humanas espaciales y temporales
Autores: Moutsis, Stavros N.; Tsintotas, Konstantinos A.; Kansizoglou, Ioannis; Gasteratos, Antonios
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Evaluando el rendimiento de las redes neuronales convolucionales móviles para el análisis de reconocimiento de acciones humanas espaciales y temporales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Reconocimiento de acciones humanas
Técnicas de aprendizaje profundo
Plataformas móviles
Arquitecturas ligeras
Métricas de rendimiento
Precisión de clasificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
El reconocimiento de acciones humanas es una tarea de visión por computadora que identifica cómo una persona o un grupo actúa en una secuencia de video. A lo largo de los años, se han propuesto varios métodos que se basan en técnicas de aprendizaje profundo, como redes neuronales convolucionales bidimensionales o tridimensionales (2D-CNNs, 3D-CNNs), redes neuronales recurrentes (RNNs) y transformadores de visión (ViT), para abordar este problema. Motivados por el hecho de que la mayoría de las CNN utilizadas en el reconocimiento de acciones humanas presentan una alta complejidad, y la necesidad de implementaciones en plataformas móviles que se caracterizan por recursos computacionales restringidos, en este artículo, llevamos a cabo un protocolo de evaluación exhaustivo sobre las métricas de rendimiento de cinco arquitecturas ligeras. En particular, examinamos cómo estas CNN orientadas a móviles (a saber, ShuffleNet-v2, EfficientNet-b0, MobileNet-v3 y GhostNet) se desempeñan en el análisis espacial en comparación con un reciente ViT pequeño, a saber, EVA-02-Ti, y un modelo de mayor capacidad computacional, ResNet-50. Nuestros modelos, previamente entrenados en ImageNet y BU101, se miden por su precisión de clasificación en HMDB51, UCF101 y seis clases del conjunto de datos NTU. Las puntuaciones promedio y máximas, así como los enfoques de votación, se generan a través de tres y quince fotogramas RGB de cada video, mientras que se evaluaron dos tasas diferentes para las capas de abandono durante el entrenamiento. Por último, se examina un análisis temporal a través de múltiples tipos de RNN que emplean características extraídas por las redes entrenadas. Nuestros resultados revelan que EfficientNet-b0 y EVA-02-Ti superan a las otras CNN móviles, logrando un rendimiento comparable o superior al de ResNet-50.
Descripción
El reconocimiento de acciones humanas es una tarea de visión por computadora que identifica cómo una persona o un grupo actúa en una secuencia de video. A lo largo de los años, se han propuesto varios métodos que se basan en técnicas de aprendizaje profundo, como redes neuronales convolucionales bidimensionales o tridimensionales (2D-CNNs, 3D-CNNs), redes neuronales recurrentes (RNNs) y transformadores de visión (ViT), para abordar este problema. Motivados por el hecho de que la mayoría de las CNN utilizadas en el reconocimiento de acciones humanas presentan una alta complejidad, y la necesidad de implementaciones en plataformas móviles que se caracterizan por recursos computacionales restringidos, en este artículo, llevamos a cabo un protocolo de evaluación exhaustivo sobre las métricas de rendimiento de cinco arquitecturas ligeras. En particular, examinamos cómo estas CNN orientadas a móviles (a saber, ShuffleNet-v2, EfficientNet-b0, MobileNet-v3 y GhostNet) se desempeñan en el análisis espacial en comparación con un reciente ViT pequeño, a saber, EVA-02-Ti, y un modelo de mayor capacidad computacional, ResNet-50. Nuestros modelos, previamente entrenados en ImageNet y BU101, se miden por su precisión de clasificación en HMDB51, UCF101 y seis clases del conjunto de datos NTU. Las puntuaciones promedio y máximas, así como los enfoques de votación, se generan a través de tres y quince fotogramas RGB de cada video, mientras que se evaluaron dos tasas diferentes para las capas de abandono durante el entrenamiento. Por último, se examina un análisis temporal a través de múltiples tipos de RNN que emplean características extraídas por las redes entrenadas. Nuestros resultados revelan que EfficientNet-b0 y EVA-02-Ti superan a las otras CNN móviles, logrando un rendimiento comparable o superior al de ResNet-50.