Detección de anomalías en videos con supervisión débil con MTDA-Net
Autores: Wu, Huixin; Yang, Mengfan; Wei, Fupeng; Shi, Ge; Jiang, Wei; Qiao, Yaqiong; Dong, Hangcheng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Detección de anomalías en videos con supervisión débil con MTDA-Net
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de comportamiento anómalo con supervisión débil
Relaciones temporales
MTDA-Net
Discriminación semántica
Secuencias de video
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
La detección de comportamientos anómalos con supervisión débil es un área popular en la actualidad. En comparación con la detección de comportamientos anómalos semi-supervisada, el aprendizaje con supervisión débil elimina la necesidad de recortar videos y resuelve el problema de la dificultad del aprendizaje semi-supervisado para manejar videos largos. El trabajo previo ha utilizado convolución de grafos o mecanismos de autoatención para modelar relaciones temporales. Sin embargo, estos métodos tienden a modelar relaciones temporales en una sola escala y carecen de consideración del problema de la agregación para diferentes relaciones temporales. En este documento, proponemos un marco de detección de anomalías con supervisión débil, MTDA-Net, con énfasis en modelar diferentes relaciones temporales y mejorar la discriminación semántica. Para ello, construimos un nuevo módulo plug-and-play, MTDA, que utiliza tres ramas, Atención Multi-Cabeza (MHA), Desplazamiento Temporal (TS) y Agregación Dilatada (DA), para extraer diferentes secuencias temporales. Específicamente, la rama MHA puede modelar globalmente la información del video y proyectar las características en diferentes espacios semánticos para mejorar la expresividad y discriminación de las características. La rama DA extrae información temporal de diferentes escalas a través de la convolución dilatada y captura las características temporales de regiones locales en el video. La rama TS puede fusionar las características de fotogramas adyacentes a escala local y mejorar el flujo de información. MTDA-Net puede aprender las relaciones temporales entre segmentos de video en diferentes ramas y aprender representaciones de video potentes basadas en estas relaciones. Los resultados experimentales en el conjunto de datos XD-Violence muestran que MTDA-Net puede mejorar significativamente la precisión de detección de comportamientos anormales.
Descripción
La detección de comportamientos anómalos con supervisión débil es un área popular en la actualidad. En comparación con la detección de comportamientos anómalos semi-supervisada, el aprendizaje con supervisión débil elimina la necesidad de recortar videos y resuelve el problema de la dificultad del aprendizaje semi-supervisado para manejar videos largos. El trabajo previo ha utilizado convolución de grafos o mecanismos de autoatención para modelar relaciones temporales. Sin embargo, estos métodos tienden a modelar relaciones temporales en una sola escala y carecen de consideración del problema de la agregación para diferentes relaciones temporales. En este documento, proponemos un marco de detección de anomalías con supervisión débil, MTDA-Net, con énfasis en modelar diferentes relaciones temporales y mejorar la discriminación semántica. Para ello, construimos un nuevo módulo plug-and-play, MTDA, que utiliza tres ramas, Atención Multi-Cabeza (MHA), Desplazamiento Temporal (TS) y Agregación Dilatada (DA), para extraer diferentes secuencias temporales. Específicamente, la rama MHA puede modelar globalmente la información del video y proyectar las características en diferentes espacios semánticos para mejorar la expresividad y discriminación de las características. La rama DA extrae información temporal de diferentes escalas a través de la convolución dilatada y captura las características temporales de regiones locales en el video. La rama TS puede fusionar las características de fotogramas adyacentes a escala local y mejorar el flujo de información. MTDA-Net puede aprender las relaciones temporales entre segmentos de video en diferentes ramas y aprender representaciones de video potentes basadas en estas relaciones. Los resultados experimentales en el conjunto de datos XD-Violence muestran que MTDA-Net puede mejorar significativamente la precisión de detección de comportamientos anormales.