Un modelo unificado para la inteligencia de amenazas cibernéticas chinas: reconocimiento de entidades planas y entidades anidadas
Autores: Yu, Jiayi; Lu, Yuliang; Zhang, Yongheng; Xie, Yi; Cheng, Mingjie; Yang, Guozheng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Un modelo unificado para la inteligencia de amenazas cibernéticas chinas: reconocimiento de entidades planas y entidades anidadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Ciberseguridad
Reconocimiento de Entidades Nombradas
Análisis de CTI
CTI chino
Modelo RBTG
Entidades anidadas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En los últimos años, a medida que las amenazas de ciberseguridad se han vuelto cada vez más graves y los ciberataques han ocurrido con frecuencia, se han establecido requisitos más altos para la protección de la ciberseguridad. Por lo tanto, la técnica de Reconocimiento de Entidades Nombradas (NER), que es la piedra angular del análisis de Inteligencia de Amenazas Cibernéticas (CTI), es particularmente importante. Sin embargo, la mayoría de los estudios de NER existentes se limitan a reconocer entidades planas de una sola capa, ignorando las posibles entidades anidadas en CTI. Por otro lado, la mayoría de los estudios existentes se centran en CTIs en inglés, y los modelos existentes tuvieron un desempeño deficiente en un número limitado de estudios de CTI en chino. Ante los desafíos anteriores, proponemos en este documento un nuevo modelo unificado, RBTG, que tiene como objetivo identificar entidades planas y anidadas en chino de manera efectiva. Para superar el problema de reconocimiento de límites difícil y las propiedades dependientes de la dirección y la distancia en NER de CTI en chino, utilizamos Global Pointer como el decodificador y TENER como la capa de codificación, respectivamente. Específicamente, la capa Global Pointer resuelve el problema de la insensibilidad de los métodos generales de NER a los límites de las entidades mediante el uso de información de posición relativa y el mecanismo de atención multiplicativa. La capa TENER se adapta a la tarea de NER de CTI en chino al introducir un mecanismo de atención con conciencia de dirección y conciencia de distancia. Mientras tanto, para hacer frente a la captura de características complejas de la estructura jerárquica y las dependencias entre las entidades anidadas de CTI en chino, la capa TENER resuelve el problema siguiendo la estructura de múltiples capas de autoatención y capas de red neuronal hacia adelante superpuestas entre sí en el Transformer. Además, para llenar la brecha en el conjunto de datos de entidades anidadas de CTI en chino, aplicamos la técnica de Modelado de Lenguaje Grande (LLM) y el conocimiento de dominio para construir un conjunto de datos de entidades anidadas de CTI en chino de alta calidad, CDTinee, que consta de seis tipos de entidades seleccionadas de STIX, incluidos casi 4000 tipos de entidades extraídas de más de 3000 oraciones amenazantes. En la sesión experimental, realizamos experimentos extensos en múltiples conjuntos de datos, y los resultados muestran que el modelo propuesto RBTG supera al modelo base tanto en NER plano como en NER anidado.
Descripción
En los últimos años, a medida que las amenazas de ciberseguridad se han vuelto cada vez más graves y los ciberataques han ocurrido con frecuencia, se han establecido requisitos más altos para la protección de la ciberseguridad. Por lo tanto, la técnica de Reconocimiento de Entidades Nombradas (NER), que es la piedra angular del análisis de Inteligencia de Amenazas Cibernéticas (CTI), es particularmente importante. Sin embargo, la mayoría de los estudios de NER existentes se limitan a reconocer entidades planas de una sola capa, ignorando las posibles entidades anidadas en CTI. Por otro lado, la mayoría de los estudios existentes se centran en CTIs en inglés, y los modelos existentes tuvieron un desempeño deficiente en un número limitado de estudios de CTI en chino. Ante los desafíos anteriores, proponemos en este documento un nuevo modelo unificado, RBTG, que tiene como objetivo identificar entidades planas y anidadas en chino de manera efectiva. Para superar el problema de reconocimiento de límites difícil y las propiedades dependientes de la dirección y la distancia en NER de CTI en chino, utilizamos Global Pointer como el decodificador y TENER como la capa de codificación, respectivamente. Específicamente, la capa Global Pointer resuelve el problema de la insensibilidad de los métodos generales de NER a los límites de las entidades mediante el uso de información de posición relativa y el mecanismo de atención multiplicativa. La capa TENER se adapta a la tarea de NER de CTI en chino al introducir un mecanismo de atención con conciencia de dirección y conciencia de distancia. Mientras tanto, para hacer frente a la captura de características complejas de la estructura jerárquica y las dependencias entre las entidades anidadas de CTI en chino, la capa TENER resuelve el problema siguiendo la estructura de múltiples capas de autoatención y capas de red neuronal hacia adelante superpuestas entre sí en el Transformer. Además, para llenar la brecha en el conjunto de datos de entidades anidadas de CTI en chino, aplicamos la técnica de Modelado de Lenguaje Grande (LLM) y el conocimiento de dominio para construir un conjunto de datos de entidades anidadas de CTI en chino de alta calidad, CDTinee, que consta de seis tipos de entidades seleccionadas de STIX, incluidos casi 4000 tipos de entidades extraídas de más de 3000 oraciones amenazantes. En la sesión experimental, realizamos experimentos extensos en múltiples conjuntos de datos, y los resultados muestran que el modelo propuesto RBTG supera al modelo base tanto en NER plano como en NER anidado.