Investigando el Impacto de las Embeddings de Secuencia de Registros en la Detección de Anomalías: Un Estudio Sistemático
Autores: Alzahrani, Musaad
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Investigando el Impacto de las Embeddings de Secuencia de Registros en la Detección de Anomalías: Un Estudio Sistemático
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Registros operativos
Detección de anomalías
Incrustaciones de secuencias
CNN
LSTM
Transformador
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los registros operativos son una fuente de información central para monitorear y diagnosticar sistemas de información complejos, sin embargo, el efecto de la representación de la secuencia de registros en la detección de anomalías sigue siendo poco explorado. Este artículo investiga tres familias de incrustaciones de secuencias, E1 (búsqueda de ID de plantilla), E2 (semántica) y E3 (híbrida), para la detección de anomalías basada en registros. Cada incrustación se empareja con cabezales de CNN, LSTM y Transformer bajo un protocolo de entrenamiento unificado. Realizamos experimentos controlados en diversos corpus públicos para evaluar la generalización dentro del dominio y entre conjuntos de datos. Informamos PR-AUC (primario), AUROC, F1 y precisión en recall >=0.9, con intervalos de confianza bootstrap del 95%. Más allá de la precisión, analizamos el impacto de la longitud de la secuencia, la elección del analizador y las tasas de fuera de vocabulario (OOV) tanto a nivel de token como de plantilla dentro y entre conjuntos de datos. Los resultados sugieren que la elección de la representación puede influir de manera significativa en el rendimiento de detección, particularmente bajo un cambio de distribución. Las incrustaciones semánticas y híbridas de vocabulario abierto pueden mejorar la robustez a los efectos OOV, pero las ganancias de transferencia son inconsistentes y la degradación a menudo persiste bajo una transferencia estricta entre conjuntos de datos.
Descripción
Los registros operativos son una fuente de información central para monitorear y diagnosticar sistemas de información complejos, sin embargo, el efecto de la representación de la secuencia de registros en la detección de anomalías sigue siendo poco explorado. Este artículo investiga tres familias de incrustaciones de secuencias, E1 (búsqueda de ID de plantilla), E2 (semántica) y E3 (híbrida), para la detección de anomalías basada en registros. Cada incrustación se empareja con cabezales de CNN, LSTM y Transformer bajo un protocolo de entrenamiento unificado. Realizamos experimentos controlados en diversos corpus públicos para evaluar la generalización dentro del dominio y entre conjuntos de datos. Informamos PR-AUC (primario), AUROC, F1 y precisión en recall >=0.9, con intervalos de confianza bootstrap del 95%. Más allá de la precisión, analizamos el impacto de la longitud de la secuencia, la elección del analizador y las tasas de fuera de vocabulario (OOV) tanto a nivel de token como de plantilla dentro y entre conjuntos de datos. Los resultados sugieren que la elección de la representación puede influir de manera significativa en el rendimiento de detección, particularmente bajo un cambio de distribución. Las incrustaciones semánticas y híbridas de vocabulario abierto pueden mejorar la robustez a los efectos OOV, pero las ganancias de transferencia son inconsistentes y la degradación a menudo persiste bajo una transferencia estricta entre conjuntos de datos.