Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero
Autores: Yang, Ruisen; Gan, Yong; Zhang, Chenfang
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de entidades
Modelo Transformer
Mecanismo de atención
BERT
Eficiencia computacional
CRF
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En los primeros modelos de reconocimiento de entidades nombradas, la mayoría del procesamiento de texto se centraba únicamente en la representación de palabras individuales y vectores de caracteres, y prestaba poca atención a las relaciones semánticas entre el texto anterior y posterior en una expresión, lo que llevó a la incapacidad de manejar el problema de los múltiples significados de una palabra durante el reconocimiento. Para abordar este problema, la mayoría de los modelos introducen el mecanismo de atención del modelo Transformer para resolver el problema de los múltiples significados de una palabra en el texto. Sin embargo, el modelo Transformer tradicional conduce a una alta sobrecarga computacional debido a su estructura completamente conectada. Por lo tanto, este artículo propone un nuevo modelo, el modelo BERT-Star-Transformer-CNN-BiLSTM-CRF, para resolver el problema de la eficiencia computacional del Transformer tradicional. Primero, el texto de entrada se genera dinámicamente en un vector de caracteres utilizando el modelo BERT preentrenado en grandes condiciones previas para resolver el problema de los múltiples significados de las palabras, y luego se utiliza el modelo Star-Transformer ligero como módulo de extracción de características para realizar la extracción de características locales en la secuencia de vectores de palabras, mientras que el modelo conjunto CNN-BiLSTM se utiliza para realizar la extracción de características globales en el contexto del texto. Las secuencias de características obtenidas se fusionan. Finalmente, las secuencias de vectores de características fusionadas se introducen en CRF para la predicción de los resultados finales. Después de los experimentos, se muestra que el modelo tiene una mejora significativa en precisión, recuperación y valor F1 en comparación con el modelo tradicional, y la eficiencia computacional se mejora en casi un 40%.
Descripción
En los primeros modelos de reconocimiento de entidades nombradas, la mayoría del procesamiento de texto se centraba únicamente en la representación de palabras individuales y vectores de caracteres, y prestaba poca atención a las relaciones semánticas entre el texto anterior y posterior en una expresión, lo que llevó a la incapacidad de manejar el problema de los múltiples significados de una palabra durante el reconocimiento. Para abordar este problema, la mayoría de los modelos introducen el mecanismo de atención del modelo Transformer para resolver el problema de los múltiples significados de una palabra en el texto. Sin embargo, el modelo Transformer tradicional conduce a una alta sobrecarga computacional debido a su estructura completamente conectada. Por lo tanto, este artículo propone un nuevo modelo, el modelo BERT-Star-Transformer-CNN-BiLSTM-CRF, para resolver el problema de la eficiencia computacional del Transformer tradicional. Primero, el texto de entrada se genera dinámicamente en un vector de caracteres utilizando el modelo BERT preentrenado en grandes condiciones previas para resolver el problema de los múltiples significados de las palabras, y luego se utiliza el modelo Star-Transformer ligero como módulo de extracción de características para realizar la extracción de características locales en la secuencia de vectores de palabras, mientras que el modelo conjunto CNN-BiLSTM se utiliza para realizar la extracción de características globales en el contexto del texto. Las secuencias de características obtenidas se fusionan. Finalmente, las secuencias de vectores de características fusionadas se introducen en CRF para la predicción de los resultados finales. Después de los experimentos, se muestra que el modelo tiene una mejora significativa en precisión, recuperación y valor F1 en comparación con el modelo tradicional, y la eficiencia computacional se mejora en casi un 40%.