logo móvil
Contáctanos

Mejorando la detección de anomalías en video mediante un marco no supervisado de atención espaciotemporal de Transformer para conjuntos de datos grandes

Autores: Habeb, Mohamed H.; Salama, May; Elrefaei, Lamiaa A.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Mejorando la detección de anomalías en video mediante un marco no supervisado de atención espaciotemporal de Transformer para conjuntos de datos grandes


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Relación espaciotemporal convolucional
Bloque de atención STR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones


Descripción
Este trabajo presenta un marco no supervisado para la detección de anomalías en videos, aprovechando un modelo híbrido de aprendizaje profundo que combina un transformador de visión (ViT) con un bloque de atención espaciotemporal convolucional (STR). El modelo propuesto aborda los desafíos de la detección de anomalías en videovigilancia capturando tanto relaciones locales como globales dentro de los fotogramas de video, una tarea con la que las redes neuronales convolucionales tradicionales a menudo luchan debido a su campo de visión localizado. Hemos utilizado un ViT pre-entrenado como codificador para la extracción de características, que luego es procesado por el bloque de atención STR para mejorar la detección de relaciones espaciotemporales entre objetos en videos. La novedad de este trabajo es utilizar el ViT con la atención STR para detectar anomalías en video de manera efectiva en conjuntos de datos grandes y heterogéneos, algo importante dada la diversidad de entornos y escenarios encontrados en la vigilancia del mundo real. El marco se evaluó en tres conjuntos de datos de referencia, es decir, UCSD-Ped2, CHUCK Avenue y ShanghaiTech. Esto demuestra el rendimiento superior del modelo en la detección de anomalías en comparación con los métodos de vanguardia, mostrando su potencial para mejorar significativamente los sistemas automatizados de videovigilancia al lograr valores de área bajo la curva característica de funcionamiento del receptor (AUC ROC) de 95.6, 86.8 y 82.1. Para mostrar la efectividad del marco propuesto en la detección de anomalías en conjuntos de datos extra grandes, entrenamos el modelo en un subconjunto del enorme conjunto de datos contemporáneo CHAD que contiene más de 1 millón de fotogramas, logrando valores de AUC ROC de 71.8 y 64.2 para CHAD-Cam 1 y CHAD-Cam 2, respectivamente, superando a las técnicas de vanguardia.

Otros recursos que podrían interesarte

Temas Virtualpro