Clasificación ligera de acciones humanas en video con características basadas en esqueletos
Autores: Kasprzak, Wodzimierz; Jankowski, Bartomiej
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificación ligera de acciones humanas en video con características basadas en esqueletos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Enfoque
Clasificación de acciones humanas
Videos
Modelos de redes neuronales
Extracción de características
Datos de esqueleto
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Se presenta un enfoque para la clasificación de acciones humanas en videos, basado en características iniciales conscientes del conocimiento extraídas de datos esqueléticos humanos y en un posterior procesamiento por medio de redes convolucionales. El seguimiento inteligente propuesto de las articulaciones del esqueleto, la aproximación de las articulaciones faltantes y la normalización de los datos esqueléticos son pasos importantes en la extracción de características. Se desarrollan y verifican experimentalmente tres modelos de redes neuronales basados en LSTM, Transformer y CNN. Los modelos son entrenados y probados en el conocido conjunto de datos NTU-RGB+D (Shahroudy et al., 2016) en modo de vista cruzada. Los resultados obtenidos muestran un rendimiento competitivo con otros métodos de vanguardia y verifican la eficacia de la ingeniería de características propuesta. La red tiene un número cinco veces menor de parámetros entrenables que otros métodos propuestos para lograr un rendimiento casi similar y veinte veces menos que las soluciones actualmente mejor calificadas. Gracias a la ligereza del clasificador, la solución solo requiere recursos computacionales relativamente pequeños.
Descripción
Se presenta un enfoque para la clasificación de acciones humanas en videos, basado en características iniciales conscientes del conocimiento extraídas de datos esqueléticos humanos y en un posterior procesamiento por medio de redes convolucionales. El seguimiento inteligente propuesto de las articulaciones del esqueleto, la aproximación de las articulaciones faltantes y la normalización de los datos esqueléticos son pasos importantes en la extracción de características. Se desarrollan y verifican experimentalmente tres modelos de redes neuronales basados en LSTM, Transformer y CNN. Los modelos son entrenados y probados en el conocido conjunto de datos NTU-RGB+D (Shahroudy et al., 2016) en modo de vista cruzada. Los resultados obtenidos muestran un rendimiento competitivo con otros métodos de vanguardia y verifican la eficacia de la ingeniería de características propuesta. La red tiene un número cinco veces menor de parámetros entrenables que otros métodos propuestos para lograr un rendimiento casi similar y veinte veces menos que las soluciones actualmente mejor calificadas. Gracias a la ligereza del clasificador, la solución solo requiere recursos computacionales relativamente pequeños.