logo móvil
Contáctanos

Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia

Autores: Rendón-Segador, Fernando J.; Álvarez-García, Juan A.; Enríquez, Fernando; Deniz, Oscar

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección eficiente de violencia automática
Vigilancia por video
Arquitectura de aprendizaje profundo
Características espacio-temporales
Flujo óptico

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 29

Citaciones: Sin citaciones


Descripción
Introducir la detección eficiente automática de violencia en sistemas de vigilancia de video o monitoreo de contenido audiovisual facilitaría en gran medida el trabajo de los operadores de circuito cerrado de televisión (CCTV), agencias de calificación o aquellos encargados de monitorear el contenido de las redes sociales. En este documento presentamos una nueva arquitectura de aprendizaje profundo, utilizando una versión adaptada de DenseNet para tres dimensiones, una capa de autoatención multi-cabeza y un módulo bidireccional de memoria a largo plazo convolucional (LSTM), que permite codificar características espacio-temporales relevantes, para determinar si un video es violento o no. Además, se lleva a cabo un estudio de ablación de los fotogramas de entrada, comparando el flujo óptico denso y la resta de fotogramas adyacentes y la influencia de la capa de atención, mostrando que la combinación de flujo óptico y el mecanismo de atención mejora los resultados hasta un 4.4%. Los experimentos realizados utilizando cuatro de los conjuntos de datos más utilizados para este problema, igualando o superando en algunos casos los resultados del estado del arte, reduciendo el número de parámetros de red necesarios (4.5 millones), y aumentando su eficiencia en precisión de prueba (desde un 95.6% en el conjunto de datos más complejo hasta un 100% en el más simple) y tiempo de inferencia (menos de 0.3 s para los clips más largos). Finalmente, para comprobar si el modelo generado es capaz de generalizar la violencia, se realiza un análisis entre conjuntos de datos, que muestra la complejidad de este enfoque: utilizando tres conjuntos de datos para entrenar y probar en el restante, la precisión disminuye en el peor caso al 70.08% y en el mejor caso al 81.51%, lo que apunta a futuros trabajos orientados hacia la detección de anomalías en nuevos conjuntos de datos.

Otros recursos que podrían interesarte

Temas Virtualpro