Evaluando el rendimiento de las redes neuronales convolucionales móviles para el análisis de reconocimiento de acciones humanas espaciales y temporales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluando el rendimiento de las redes neuronales convolucionales móviles para el análisis de reconocimiento de acciones humanas espaciales y temporales

Autores: Moutsis, Stavros N.; Tsintotas, Konstantinos A.; Kansizoglou, Ioannis; Gasteratos, Antonios

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Evaluando el rendimiento de las redes neuronales convolucionales móviles para el análisis de reconocimiento de acciones humanas espaciales y temporales

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Reconocimiento de acciones humanas

Técnicas de aprendizaje profundo

Plataformas móviles

Arquitecturas ligeras

Métricas de rendimiento

Precisión de clasificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 37

Citaciones: Sin citaciones

El reconocimiento de acciones humanas es una tarea de visión por computadora que identifica cómo una persona o un grupo actúa en una secuencia de video. A lo largo de los años, se han propuesto varios métodos que se basan en técnicas de aprendizaje profundo, como redes neuronales convolucionales bidimensionales o tridimensionales (2D-CNNs, 3D-CNNs), redes neuronales recurrentes (RNNs) y transformadores de visión (ViT), para abordar este problema. Motivados por el hecho de que la mayoría de las CNN utilizadas en el reconocimiento de acciones humanas presentan una alta complejidad, y la necesidad de implementaciones en plataformas móviles que se caracterizan por recursos computacionales restringidos, en este artículo, llevamos a cabo un protocolo de evaluación exhaustivo sobre las métricas de rendimiento de cinco arquitecturas ligeras. En particular, examinamos cómo estas CNN orientadas a móviles (a saber, ShuffleNet-v2, EfficientNet-b0, MobileNet-v3 y GhostNet) se desempeñan en el análisis espacial en comparación con un reciente ViT pequeño, a saber, EVA-02-Ti, y un modelo de mayor capacidad computacional, ResNet-50. Nuestros modelos, previamente entrenados en ImageNet y BU101, se miden por su precisión de clasificación en HMDB51, UCF101 y seis clases del conjunto de datos NTU. Las puntuaciones promedio y máximas, así como los enfoques de votación, se generan a través de tres y quince fotogramas RGB de cada video, mientras que se evaluaron dos tasas diferentes para las capas de abandono durante el entrenamiento. Por último, se examina un análisis temporal a través de múltiples tipos de RNN que emplean características extraídas por las redes entrenadas. Nuestros resultados revelan que EfficientNet-b0 y EVA-02-Ti superan a las otras CNN móviles, logrando un rendimiento comparable o superior al de ResNet-50.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro