Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención
Autores: Anvarov, Fazliddin; Kim, Dae Ha; Song, Byung Cheol
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de acciones
Basado en video
Red neuronal convolucional
Squeeze-and-excitation
Autoatención
UCF-101
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
El reconocimiento de acciones es un campo de investigación activo que tiene como objetivo reconocer acciones e intenciones humanas a partir de una serie de observaciones del comportamiento humano y el entorno. A diferencia del reconocimiento de acciones basado en imágenes que utiliza principalmente una red neuronal convolucional bidimensional (CNN), una de las dificultades en el reconocimiento de acciones basado en video es que el comportamiento de la acción en el video debe ser capaz de caracterizar tanto movimientos pequeños a corto plazo como información de apariencia temporal a largo plazo. Los métodos anteriores se centran en analizar el comportamiento de la acción en el video utilizando únicamente un marco básico de CNN 3D. Sin embargo, estos enfoques tienen una limitación en el análisis de movimientos rápidos de acción u objetos que aparecen abruptamente debido a la cobertura limitada del filtro convolucional. En este documento, proponemos la agregación de módulos de squeeze-and-excitation (SE) y self-attention (SA) con CNN 3D para analizar de manera eficiente el comportamiento de la acción temporal a corto y largo plazo. Implementamos con éxito los módulos SE y SA para presentar un enfoque novedoso para el reconocimiento de acciones en video que se basa en los métodos actuales más avanzados y demuestra un mejor rendimiento con los conjuntos de datos UCF-101 y HMDB51. Por ejemplo, obtenemos precisión del 92.5% (clip de 16f) y 95.6% (clip de 64f) con el conjunto de datos UCF-101, y 68.1% (clip de 16f) y 74.1% (clip de 64f) con HMDB51 para la arquitectura ResNext-101 en un CNN 3D.
Descripción
El reconocimiento de acciones es un campo de investigación activo que tiene como objetivo reconocer acciones e intenciones humanas a partir de una serie de observaciones del comportamiento humano y el entorno. A diferencia del reconocimiento de acciones basado en imágenes que utiliza principalmente una red neuronal convolucional bidimensional (CNN), una de las dificultades en el reconocimiento de acciones basado en video es que el comportamiento de la acción en el video debe ser capaz de caracterizar tanto movimientos pequeños a corto plazo como información de apariencia temporal a largo plazo. Los métodos anteriores se centran en analizar el comportamiento de la acción en el video utilizando únicamente un marco básico de CNN 3D. Sin embargo, estos enfoques tienen una limitación en el análisis de movimientos rápidos de acción u objetos que aparecen abruptamente debido a la cobertura limitada del filtro convolucional. En este documento, proponemos la agregación de módulos de squeeze-and-excitation (SE) y self-attention (SA) con CNN 3D para analizar de manera eficiente el comportamiento de la acción temporal a corto y largo plazo. Implementamos con éxito los módulos SE y SA para presentar un enfoque novedoso para el reconocimiento de acciones en video que se basa en los métodos actuales más avanzados y demuestra un mejor rendimiento con los conjuntos de datos UCF-101 y HMDB51. Por ejemplo, obtenemos precisión del 92.5% (clip de 16f) y 95.6% (clip de 64f) con el conjunto de datos UCF-101, y 68.1% (clip de 16f) y 74.1% (clip de 64f) con HMDB51 para la arquitectura ResNext-101 en un CNN 3D.