GSTGPT: Un marco basado en GPT para la detección de anomalías en datos de múltiples fuentes
Autores: Liu, Jizhao; Fang, Mingyan; Zhang, Shuqin; Shan, Fangfang; Li, Jun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
GSTGPT: Un marco basado en GPT para la detección de anomalías en datos de múltiples fuentes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Detección de anomalías
Sistemas de microservicios
Modelos de secuencia profunda
Datos de múltiples fuentes
Modelo de lenguaje generativo preentrenado
GSTGPT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de anomalías es un enfoque crítico para garantizar la seguridad de los sistemas de microservicios. En los últimos años, los modelos de secuencia profunda se han aplicado ampliamente para transformar el modelado de secuencias en un problema de modelado de lenguaje. Sin embargo, el objetivo de entrenar modelos de secuencia con pérdida de modelado de lenguaje no está directamente alineado con la detección de anomalías. Además, los diversos tipos de datos en los sistemas de microservicios, a saber, métricas, registros y trazas, exhiben asincronía y complejas interdependencias. Los métodos existentes basados en modelos de secuencia profunda, como LogBERT y TranAD, solo pueden tener en cuenta un número limitado de modalidades de datos, sin lograr aprovechar completamente los datos de múltiples fuentes y manejar de manera efectiva las interrelaciones entre múltiples modalidades. Para abordar esto, proponemos un marco de detección de anomalías multimodal basado en un modelo de lenguaje generativo preentrenado (GPT), llamado GSTGPT. GSTGPT representa datos de múltiples fuentes como un gráfico de características, con métricas y registros como características de nodo y trazas como características de borde. Además, modelamos las interacciones y dependencias de características dentro de las secuencias utilizando atención espaciotemporal y mejoramos el enfoque del modelo en características críticas a través de la augmentación de características. Los resultados experimentales en dos conjuntos de datos del mundo real demuestran que GSTGPT logra una puntuación F1 de 0.967, una mejora del 8.3% sobre los métodos base, superándolos significativamente.
Descripción
La detección de anomalías es un enfoque crítico para garantizar la seguridad de los sistemas de microservicios. En los últimos años, los modelos de secuencia profunda se han aplicado ampliamente para transformar el modelado de secuencias en un problema de modelado de lenguaje. Sin embargo, el objetivo de entrenar modelos de secuencia con pérdida de modelado de lenguaje no está directamente alineado con la detección de anomalías. Además, los diversos tipos de datos en los sistemas de microservicios, a saber, métricas, registros y trazas, exhiben asincronía y complejas interdependencias. Los métodos existentes basados en modelos de secuencia profunda, como LogBERT y TranAD, solo pueden tener en cuenta un número limitado de modalidades de datos, sin lograr aprovechar completamente los datos de múltiples fuentes y manejar de manera efectiva las interrelaciones entre múltiples modalidades. Para abordar esto, proponemos un marco de detección de anomalías multimodal basado en un modelo de lenguaje generativo preentrenado (GPT), llamado GSTGPT. GSTGPT representa datos de múltiples fuentes como un gráfico de características, con métricas y registros como características de nodo y trazas como características de borde. Además, modelamos las interacciones y dependencias de características dentro de las secuencias utilizando atención espaciotemporal y mejoramos el enfoque del modelo en características críticas a través de la augmentación de características. Los resultados experimentales en dos conjuntos de datos del mundo real demuestran que GSTGPT logra una puntuación F1 de 0.967, una mejora del 8.3% sobre los métodos base, superándolos significativamente.