logo móvil
Contáctanos

Un modelo de representación de codificador bidireccional ponderado por centralidad de Transformers para mejorar el etiquetado de secuencias en la extracción de frases clave de textos científicos

Autores: Zengeya, Tsitsi; Fonou Dombeu, Jean Vincent; Gwetu, Mandlenkosi

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Un modelo de representación de codificador bidireccional ponderado por centralidad de Transformers para mejorar el etiquetado de secuencias en la extracción de frases clave de textos científicos


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Sistemas

Palabras clave

Enfoques de aprendizaje profundo
Representación bidireccional del codificador de transformadores
Bert
Extracción de frases clave
Modelo cenbert-seq
Incrustaciones contextualizadas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones


Descripción
Los enfoques de aprendizaje profundo, utilizando la Representación de Codificador Bidireccional de Transformadores (BERT) y técnicas avanzadas de ajuste fino, han logrado precisión de vanguardia en el dominio de la extracción de términos de textos. Sin embargo, BERT presenta algunas limitaciones en que captura principalmente el contexto semántico en relación con el texto circundante sin considerar cuán relevante o central es un token para el contenido general del documento. También ha habido investigaciones sobre la aplicación de etiquetado de secuencias en incrustaciones contextualizadas; sin embargo, los métodos existentes a menudo se basan únicamente en el contexto local para extraer frases clave de textos. Para abordar estas limitaciones, este estudio propone un modelo BERT ponderado por centralidad para la extracción de frases clave de texto utilizando etiquetado de secuencias (CenBERT-SEQ). El modelo propuesto CenBERT-SEQ utiliza BERT para representar términos con diversas arquitecturas de incrustación contextual y presenta una capa de ponderación de centralidad que integra el contexto a nivel de documento en BERT. Esta capa aprovecha las incrustaciones de documentos para influir en la importancia de cada término en función de su relevancia para todo el documento. Finalmente, se emplea una capa de clasificador lineal para modelar las dependencias entre las salidas, mejorando así la precisión del modelo CenBERT-SEQ. El modelo CenBERT-SEQ propuesto se evaluó frente al modelo estándar BERT base-uncased utilizando tres conjuntos de datos de artículos de Ciencias de la Computación, a saber, SemEval-2010, WWW y KDD. Los resultados experimentales muestran que, aunque los modelos CenBERT-SEQ y BERT-base lograron una precisión más alta y comparativamente cercana, el modelo CenBERT-SEQ propuesto obtuvo una precisión, recall y puntuación F1 más altos que el modelo BERT-base. Además, una comparación del modelo CenBERT-SEQ propuesto con estudios relacionados reveló que el modelo CenBERT-SEQ propuesto logró una precisión, recall y puntuación F1 más altas del 95%, 97%, 91% y 94%, respectivamente, que los estudios relacionados, mostrando las capacidades superiores del modelo CenBERT-SEQ en la extracción de palabras clave de documentos científicos.

Otros recursos que podrían interesarte

Temas Virtualpro