Detección de anomalías en videos con supervisión débil con MTDA-Net

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Detección de anomalías en videos con supervisión débil con MTDA-Net

Autores: Wu, Huixin; Yang, Mengfan; Wei, Fupeng; Shi, Ge; Jiang, Wei; Qiao, Yaqiong; Dong, Hangcheng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Detección de anomalías en videos con supervisión débil con MTDA-Net

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de comportamiento anómalo con supervisión débil

Relaciones temporales

MTDA-Net

Discriminación semántica

Secuencias de video

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 49

Citaciones: Sin citaciones

La detección de comportamientos anómalos con supervisión débil es un área popular en la actualidad. En comparación con la detección de comportamientos anómalos semi-supervisada, el aprendizaje con supervisión débil elimina la necesidad de recortar videos y resuelve el problema de la dificultad del aprendizaje semi-supervisado para manejar videos largos. El trabajo previo ha utilizado convolución de grafos o mecanismos de autoatención para modelar relaciones temporales. Sin embargo, estos métodos tienden a modelar relaciones temporales en una sola escala y carecen de consideración del problema de la agregación para diferentes relaciones temporales. En este documento, proponemos un marco de detección de anomalías con supervisión débil, MTDA-Net, con énfasis en modelar diferentes relaciones temporales y mejorar la discriminación semántica. Para ello, construimos un nuevo módulo plug-and-play, MTDA, que utiliza tres ramas, Atención Multi-Cabeza (MHA), Desplazamiento Temporal (TS) y Agregación Dilatada (DA), para extraer diferentes secuencias temporales. Específicamente, la rama MHA puede modelar globalmente la información del video y proyectar las características en diferentes espacios semánticos para mejorar la expresividad y discriminación de las características. La rama DA extrae información temporal de diferentes escalas a través de la convolución dilatada y captura las características temporales de regiones locales en el video. La rama TS puede fusionar las características de fotogramas adyacentes a escala local y mejorar el flujo de información. MTDA-Net puede aprender las relaciones temporales entre segmentos de video en diferentes ramas y aprender representaciones de video potentes basadas en estas relaciones. Los resultados experimentales en el conjunto de datos XD-Violence muestran que MTDA-Net puede mejorar significativamente la precisión de detección de comportamientos anormales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro