Investigación sobre tareas de clasificación de relaciones basadas en texto de ciberseguridad
Autores: Shi, Ze; Li, Hongyi; Zhao, Di; Pan, Chengwei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Investigación sobre tareas de clasificación de relaciones basadas en texto de ciberseguridad
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Clasificación de relaciones
Procesamiento de lenguaje natural
Entidades
Modelo BERT
Redes de atención de gráficos
Conjunto de datos SemEval-2010
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
La clasificación de relaciones es una tarea significativa dentro del campo del procesamiento del lenguaje natural. Su objetivo es extraer e identificar relaciones entre dos entidades en un texto dado. Dentro del alcance de este documento, construimos un conjunto de datos artificial (CS13K) para la clasificación de relaciones en el ámbito de la ciberseguridad y proponemos dos modelos para procesar tales tareas. Para cualquier oración que contenga dos entidades objetivo, primero localizamos las entidades y ajustamos finamente el modelo BERT pre-entrenado. Luego, utilizamos redes de atención de grafos para actualizar de forma iterativa los nodos de palabras y los nodos de relaciones. Un nuevo modelo de clasificación de relaciones se construye concatenando los vectores actualizados de los nodos de palabras y los nodos de relaciones. Nuestro modelo propuesto logró un rendimiento excepcional en el conjunto de datos de la tarea 8 de SemEval-2010, superando enfoques anteriores con un valor de F1 notable del 92.3%. Además, proponemos la integración de un mecanismo de votación basado en clasificación en el modelo existente. Nuestros mejores resultados son un valor de F1 del 92.5% en el conjunto de datos de la tarea 8 de SemEval-2010 y un valor del 94.6% en el conjunto de datos CS13K. Estos hallazgos destacan la efectividad de nuestros modelos propuestos en abordar tareas de clasificación de relaciones.
Descripción
La clasificación de relaciones es una tarea significativa dentro del campo del procesamiento del lenguaje natural. Su objetivo es extraer e identificar relaciones entre dos entidades en un texto dado. Dentro del alcance de este documento, construimos un conjunto de datos artificial (CS13K) para la clasificación de relaciones en el ámbito de la ciberseguridad y proponemos dos modelos para procesar tales tareas. Para cualquier oración que contenga dos entidades objetivo, primero localizamos las entidades y ajustamos finamente el modelo BERT pre-entrenado. Luego, utilizamos redes de atención de grafos para actualizar de forma iterativa los nodos de palabras y los nodos de relaciones. Un nuevo modelo de clasificación de relaciones se construye concatenando los vectores actualizados de los nodos de palabras y los nodos de relaciones. Nuestro modelo propuesto logró un rendimiento excepcional en el conjunto de datos de la tarea 8 de SemEval-2010, superando enfoques anteriores con un valor de F1 notable del 92.3%. Además, proponemos la integración de un mecanismo de votación basado en clasificación en el modelo existente. Nuestros mejores resultados son un valor de F1 del 92.5% en el conjunto de datos de la tarea 8 de SemEval-2010 y un valor del 94.6% en el conjunto de datos CS13K. Estos hallazgos destacan la efectividad de nuestros modelos propuestos en abordar tareas de clasificación de relaciones.