logo móvil
Contáctanos

Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención

Autores: Anvarov, Fazliddin; Kim, Dae Ha; Song, Byung Cheol

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acciones
Basado en video
Red neuronal convolucional
Squeeze-and-excitation
Autoatención
UCF-101

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones


Descripción
El reconocimiento de acciones es un campo de investigación activo que tiene como objetivo reconocer acciones e intenciones humanas a partir de una serie de observaciones del comportamiento humano y el entorno. A diferencia del reconocimiento de acciones basado en imágenes que utiliza principalmente una red neuronal convolucional bidimensional (CNN), una de las dificultades en el reconocimiento de acciones basado en video es que el comportamiento de la acción en el video debe ser capaz de caracterizar tanto movimientos pequeños a corto plazo como información de apariencia temporal a largo plazo. Los métodos anteriores se centran en analizar el comportamiento de la acción en el video utilizando únicamente un marco básico de CNN 3D. Sin embargo, estos enfoques tienen una limitación en el análisis de movimientos rápidos de acción u objetos que aparecen abruptamente debido a la cobertura limitada del filtro convolucional. En este documento, proponemos la agregación de módulos de squeeze-and-excitation (SE) y self-attention (SA) con CNN 3D para analizar de manera eficiente el comportamiento de la acción temporal a corto y largo plazo. Implementamos con éxito los módulos SE y SA para presentar un enfoque novedoso para el reconocimiento de acciones en video que se basa en los métodos actuales más avanzados y demuestra un mejor rendimiento con los conjuntos de datos UCF-101 y HMDB51. Por ejemplo, obtenemos precisión del 92.5% (clip de 16f) y 95.6% (clip de 64f) con el conjunto de datos UCF-101, y 68.1% (clip de 16f) y 74.1% (clip de 64f) con HMDB51 para la arquitectura ResNext-101 en un CNN 3D.

Otros recursos que podrían interesarte

Temas Virtualpro