Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia

Autores: Rendón-Segador, Fernando J.; Álvarez-García, Juan A.; Enríquez, Fernando; Deniz, Oscar

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico

2021

Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección eficiente de violencia automática

Vigilancia por video

Arquitectura de aprendizaje profundo

Características espacio-temporales

Flujo óptico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones

Introducir la detección eficiente automática de violencia en sistemas de vigilancia de video o monitoreo de contenido audiovisual facilitaría en gran medida el trabajo de los operadores de circuito cerrado de televisión (CCTV), agencias de calificación o aquellos encargados de monitorear el contenido de las redes sociales. En este documento presentamos una nueva arquitectura de aprendizaje profundo, utilizando una versión adaptada de DenseNet para tres dimensiones, una capa de autoatención multi-cabeza y un módulo bidireccional de memoria a largo plazo convolucional (LSTM), que permite codificar características espacio-temporales relevantes, para determinar si un video es violento o no. Además, se lleva a cabo un estudio de ablación de los fotogramas de entrada, comparando el flujo óptico denso y la resta de fotogramas adyacentes y la influencia de la capa de atención, mostrando que la combinación de flujo óptico y el mecanismo de atención mejora los resultados hasta un 4.4%. Los experimentos realizados utilizando cuatro de los conjuntos de datos más utilizados para este problema, igualando o superando en algunos casos los resultados del estado del arte, reduciendo el número de parámetros de red necesarios (4.5 millones), y aumentando su eficiencia en precisión de prueba (desde un 95.6% en el conjunto de datos más complejo hasta un 100% en el más simple) y tiempo de inferencia (menos de 0.3 s para los clips más largos). Finalmente, para comprobar si el modelo generado es capaz de generalizar la violencia, se realiza un análisis entre conjuntos de datos, que muestra la complejidad de este enfoque: utilizando tres conjuntos de datos para entrenar y probar en el restante, la precisión disminuye en el peor caso al 70.08% y en el mejor caso al 81.51%, lo que apunta a futuros trabajos orientados hacia la detección de anomalías en nuevos conjuntos de datos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro