Marco de detección de violencia en video de dos etapas utilizando GMFlow y ResNet3D mejorado con CBAM
Autores: Mahmoud, Mohamed; Yagoub, Bilel; Senussi, Mostafa Farouk; Abdalla, Mahmoud; Kasem, Mahmoud Salaheldin; Kang, Hyun-Soo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Marco de detección de violencia en video de dos etapas utilizando GMFlow y ResNet3D mejorado con CBAM
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detección de violencia en videos
Marco de dos etapas
Red de flujo óptico
Cuadros RGB
Red ResNet3D mejorada con CBAM
Características espacio-temporales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 20
Citaciones: Sin citaciones
La detección de violencia en videos ha ganado una atención significativa en los últimos años debido a sus aplicaciones en vigilancia y seguridad. Este documento propone un marco de dos etapas para detectar acciones violentas en secuencias de video. La primera etapa aprovecha GMFlow, una red de flujo óptico pre-entrenada, para capturar el movimiento temporal entre fotogramas consecutivos, codificando efectivamente la dinámica del movimiento. En la segunda etapa, integramos estas imágenes de flujo óptico con fotogramas RGB y los alimentamos en una red ResNet3D mejorada con CBAM para capturar características espacio-temporales complementarias. El mecanismo de atención proporcionado por CBAM permite que la red se enfoque en las regiones más relevantes en los fotogramas, mejorando la detección de acciones violentas. Evaluamos el marco propuesto en tres conjuntos de datos ampliamente utilizados: Hockey Fight, Crowd Violence y UBI-Fight. Nuestros resultados experimentales demuestran un rendimiento superior en comparación con varios métodos de última generación, logrando puntuaciones de AUC de 0.963 en UBI-Fight y precisión del 97.5% y 94.0% en Hockey Fight y Crowd Violence, respectivamente. El enfoque propuesto combina de manera efectiva el flujo óptico generado por GMFlow con redes convolucionales 3D profundas, proporcionando una detección robusta y eficiente de la violencia en videos.
Descripción
La detección de violencia en videos ha ganado una atención significativa en los últimos años debido a sus aplicaciones en vigilancia y seguridad. Este documento propone un marco de dos etapas para detectar acciones violentas en secuencias de video. La primera etapa aprovecha GMFlow, una red de flujo óptico pre-entrenada, para capturar el movimiento temporal entre fotogramas consecutivos, codificando efectivamente la dinámica del movimiento. En la segunda etapa, integramos estas imágenes de flujo óptico con fotogramas RGB y los alimentamos en una red ResNet3D mejorada con CBAM para capturar características espacio-temporales complementarias. El mecanismo de atención proporcionado por CBAM permite que la red se enfoque en las regiones más relevantes en los fotogramas, mejorando la detección de acciones violentas. Evaluamos el marco propuesto en tres conjuntos de datos ampliamente utilizados: Hockey Fight, Crowd Violence y UBI-Fight. Nuestros resultados experimentales demuestran un rendimiento superior en comparación con varios métodos de última generación, logrando puntuaciones de AUC de 0.963 en UBI-Fight y precisión del 97.5% y 94.0% en Hockey Fight y Crowd Violence, respectivamente. El enfoque propuesto combina de manera efectiva el flujo óptico generado por GMFlow con redes convolucionales 3D profundas, proporcionando una detección robusta y eficiente de la violencia en videos.