Mejorando la detección de anomalías en video mediante un marco no supervisado de atención espaciotemporal de Transformer para conjuntos de datos grandes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mejorando la detección de anomalías en video mediante un marco no supervisado de atención espaciotemporal de Transformer para conjuntos de datos grandes

Autores: Habeb, Mohamed H.; Salama, May; Elrefaei, Lamiaa A.

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Mejorando la detección de anomalías en video mediante un marco no supervisado de atención espaciotemporal de Transformer para conjuntos de datos grandes

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Relación espaciotemporal convolucional

Bloque de atención STR

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 34

Citaciones: Sin citaciones

Este trabajo presenta un marco no supervisado para la detección de anomalías en videos, aprovechando un modelo híbrido de aprendizaje profundo que combina un transformador de visión (ViT) con un bloque de atención espaciotemporal convolucional (STR). El modelo propuesto aborda los desafíos de la detección de anomalías en videovigilancia capturando tanto relaciones locales como globales dentro de los fotogramas de video, una tarea con la que las redes neuronales convolucionales tradicionales a menudo luchan debido a su campo de visión localizado. Hemos utilizado un ViT pre-entrenado como codificador para la extracción de características, que luego es procesado por el bloque de atención STR para mejorar la detección de relaciones espaciotemporales entre objetos en videos. La novedad de este trabajo es utilizar el ViT con la atención STR para detectar anomalías en video de manera efectiva en conjuntos de datos grandes y heterogéneos, algo importante dada la diversidad de entornos y escenarios encontrados en la vigilancia del mundo real. El marco se evaluó en tres conjuntos de datos de referencia, es decir, UCSD-Ped2, CHUCK Avenue y ShanghaiTech. Esto demuestra el rendimiento superior del modelo en la detección de anomalías en comparación con los métodos de vanguardia, mostrando su potencial para mejorar significativamente los sistemas automatizados de videovigilancia al lograr valores de área bajo la curva característica de funcionamiento del receptor (AUC ROC) de 95.6, 86.8 y 82.1. Para mostrar la efectividad del marco propuesto en la detección de anomalías en conjuntos de datos extra grandes, entrenamos el modelo en un subconjunto del enorme conjunto de datos contemporáneo CHAD que contiene más de 1 millón de fotogramas, logrando valores de AUC ROC de 71.8 y 64.2 para CHAD-Cam 1 y CHAD-Cam 2, respectivamente, superando a las técnicas de vanguardia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro