Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención

Autores: Anvarov, Fazliddin; Kim, Dae Ha; Song, Byung Cheol

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Reconocimiento de acción utilizando redes neuronales convolucionales 3D profundas con agregación secuencial de características y atención

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Reconocimiento de acciones

Basado en video

Red neuronal convolucional

Squeeze-and-excitation

Autoatención

UCF-101

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 28

Citaciones: Sin citaciones

El reconocimiento de acciones es un campo de investigación activo que tiene como objetivo reconocer acciones e intenciones humanas a partir de una serie de observaciones del comportamiento humano y el entorno. A diferencia del reconocimiento de acciones basado en imágenes que utiliza principalmente una red neuronal convolucional bidimensional (CNN), una de las dificultades en el reconocimiento de acciones basado en video es que el comportamiento de la acción en el video debe ser capaz de caracterizar tanto movimientos pequeños a corto plazo como información de apariencia temporal a largo plazo. Los métodos anteriores se centran en analizar el comportamiento de la acción en el video utilizando únicamente un marco básico de CNN 3D. Sin embargo, estos enfoques tienen una limitación en el análisis de movimientos rápidos de acción u objetos que aparecen abruptamente debido a la cobertura limitada del filtro convolucional. En este documento, proponemos la agregación de módulos de squeeze-and-excitation (SE) y self-attention (SA) con CNN 3D para analizar de manera eficiente el comportamiento de la acción temporal a corto y largo plazo. Implementamos con éxito los módulos SE y SA para presentar un enfoque novedoso para el reconocimiento de acciones en video que se basa en los métodos actuales más avanzados y demuestra un mejor rendimiento con los conjuntos de datos UCF-101 y HMDB51. Por ejemplo, obtenemos precisión del 92.5% (clip de 16f) y 95.6% (clip de 64f) con el conjunto de datos UCF-101, y 68.1% (clip de 16f) y 74.1% (clip de 64f) con HMDB51 para la arquitectura ResNext-101 en un CNN 3D.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro