logo móvil
Contáctanos

Detección de anomalías en videos con supervisión débil con MTDA-Net

Autores: Wu, Huixin; Yang, Mengfan; Wei, Fupeng; Shi, Ge; Jiang, Wei; Qiao, Yaqiong; Dong, Hangcheng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Detección de anomalías en videos con supervisión débil con MTDA-Net


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de comportamiento anómalo con supervisión débil
Relaciones temporales
MTDA-Net
Discriminación semántica
Secuencias de video

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones


Descripción
La detección de comportamientos anómalos con supervisión débil es un área popular en la actualidad. En comparación con la detección de comportamientos anómalos semi-supervisada, el aprendizaje con supervisión débil elimina la necesidad de recortar videos y resuelve el problema de la dificultad del aprendizaje semi-supervisado para manejar videos largos. El trabajo previo ha utilizado convolución de grafos o mecanismos de autoatención para modelar relaciones temporales. Sin embargo, estos métodos tienden a modelar relaciones temporales en una sola escala y carecen de consideración del problema de la agregación para diferentes relaciones temporales. En este documento, proponemos un marco de detección de anomalías con supervisión débil, MTDA-Net, con énfasis en modelar diferentes relaciones temporales y mejorar la discriminación semántica. Para ello, construimos un nuevo módulo plug-and-play, MTDA, que utiliza tres ramas, Atención Multi-Cabeza (MHA), Desplazamiento Temporal (TS) y Agregación Dilatada (DA), para extraer diferentes secuencias temporales. Específicamente, la rama MHA puede modelar globalmente la información del video y proyectar las características en diferentes espacios semánticos para mejorar la expresividad y discriminación de las características. La rama DA extrae información temporal de diferentes escalas a través de la convolución dilatada y captura las características temporales de regiones locales en el video. La rama TS puede fusionar las características de fotogramas adyacentes a escala local y mejorar el flujo de información. MTDA-Net puede aprender las relaciones temporales entre segmentos de video en diferentes ramas y aprender representaciones de video potentes basadas en estas relaciones. Los resultados experimentales en el conjunto de datos XD-Violence muestran que MTDA-Net puede mejorar significativamente la precisión de detección de comportamientos anormales.

Otros recursos que podrían interesarte

Temas Virtualpro