Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia
Autores: Rendón-Segador, Fernando J.; Álvarez-García, Juan A.; Enríquez, Fernando; Deniz, Oscar
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Violencenet: atención propia densa de múltiples cabezas con LSTM convolucional bidireccional para detectar violencia
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección eficiente de violencia automática
Vigilancia por video
Arquitectura de aprendizaje profundo
Características espacio-temporales
Flujo óptico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 29
Citaciones: Sin citaciones
Introducir la detección eficiente automática de violencia en sistemas de vigilancia de video o monitoreo de contenido audiovisual facilitaría en gran medida el trabajo de los operadores de circuito cerrado de televisión (CCTV), agencias de calificación o aquellos encargados de monitorear el contenido de las redes sociales. En este documento presentamos una nueva arquitectura de aprendizaje profundo, utilizando una versión adaptada de DenseNet para tres dimensiones, una capa de autoatención multi-cabeza y un módulo bidireccional de memoria a largo plazo convolucional (LSTM), que permite codificar características espacio-temporales relevantes, para determinar si un video es violento o no. Además, se lleva a cabo un estudio de ablación de los fotogramas de entrada, comparando el flujo óptico denso y la resta de fotogramas adyacentes y la influencia de la capa de atención, mostrando que la combinación de flujo óptico y el mecanismo de atención mejora los resultados hasta un 4.4%. Los experimentos realizados utilizando cuatro de los conjuntos de datos más utilizados para este problema, igualando o superando en algunos casos los resultados del estado del arte, reduciendo el número de parámetros de red necesarios (4.5 millones), y aumentando su eficiencia en precisión de prueba (desde un 95.6% en el conjunto de datos más complejo hasta un 100% en el más simple) y tiempo de inferencia (menos de 0.3 s para los clips más largos). Finalmente, para comprobar si el modelo generado es capaz de generalizar la violencia, se realiza un análisis entre conjuntos de datos, que muestra la complejidad de este enfoque: utilizando tres conjuntos de datos para entrenar y probar en el restante, la precisión disminuye en el peor caso al 70.08% y en el mejor caso al 81.51%, lo que apunta a futuros trabajos orientados hacia la detección de anomalías en nuevos conjuntos de datos.
Descripción
Introducir la detección eficiente automática de violencia en sistemas de vigilancia de video o monitoreo de contenido audiovisual facilitaría en gran medida el trabajo de los operadores de circuito cerrado de televisión (CCTV), agencias de calificación o aquellos encargados de monitorear el contenido de las redes sociales. En este documento presentamos una nueva arquitectura de aprendizaje profundo, utilizando una versión adaptada de DenseNet para tres dimensiones, una capa de autoatención multi-cabeza y un módulo bidireccional de memoria a largo plazo convolucional (LSTM), que permite codificar características espacio-temporales relevantes, para determinar si un video es violento o no. Además, se lleva a cabo un estudio de ablación de los fotogramas de entrada, comparando el flujo óptico denso y la resta de fotogramas adyacentes y la influencia de la capa de atención, mostrando que la combinación de flujo óptico y el mecanismo de atención mejora los resultados hasta un 4.4%. Los experimentos realizados utilizando cuatro de los conjuntos de datos más utilizados para este problema, igualando o superando en algunos casos los resultados del estado del arte, reduciendo el número de parámetros de red necesarios (4.5 millones), y aumentando su eficiencia en precisión de prueba (desde un 95.6% en el conjunto de datos más complejo hasta un 100% en el más simple) y tiempo de inferencia (menos de 0.3 s para los clips más largos). Finalmente, para comprobar si el modelo generado es capaz de generalizar la violencia, se realiza un análisis entre conjuntos de datos, que muestra la complejidad de este enfoque: utilizando tres conjuntos de datos para entrenar y probar en el restante, la precisión disminuye en el peor caso al 70.08% y en el mejor caso al 81.51%, lo que apunta a futuros trabajos orientados hacia la detección de anomalías en nuevos conjuntos de datos.