logo móvil
Contáctanos

Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero

Autores: Yang, Ruisen; Gan, Yong; Zhang, Chenfang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de entidades
Modelo Transformer
Mecanismo de atención
BERT
Eficiencia computacional
CRF

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En los primeros modelos de reconocimiento de entidades nombradas, la mayoría del procesamiento de texto se centraba únicamente en la representación de palabras individuales y vectores de caracteres, y prestaba poca atención a las relaciones semánticas entre el texto anterior y posterior en una expresión, lo que llevó a la incapacidad de manejar el problema de los múltiples significados de una palabra durante el reconocimiento. Para abordar este problema, la mayoría de los modelos introducen el mecanismo de atención del modelo Transformer para resolver el problema de los múltiples significados de una palabra en el texto. Sin embargo, el modelo Transformer tradicional conduce a una alta sobrecarga computacional debido a su estructura completamente conectada. Por lo tanto, este artículo propone un nuevo modelo, el modelo BERT-Star-Transformer-CNN-BiLSTM-CRF, para resolver el problema de la eficiencia computacional del Transformer tradicional. Primero, el texto de entrada se genera dinámicamente en un vector de caracteres utilizando el modelo BERT preentrenado en grandes condiciones previas para resolver el problema de los múltiples significados de las palabras, y luego se utiliza el modelo Star-Transformer ligero como módulo de extracción de características para realizar la extracción de características locales en la secuencia de vectores de palabras, mientras que el modelo conjunto CNN-BiLSTM se utiliza para realizar la extracción de características globales en el contexto del texto. Las secuencias de características obtenidas se fusionan. Finalmente, las secuencias de vectores de características fusionadas se introducen en CRF para la predicción de los resultados finales. Después de los experimentos, se muestra que el modelo tiene una mejora significativa en precisión, recuperación y valor F1 en comparación con el modelo tradicional, y la eficiencia computacional se mejora en casi un 40%.

Otros recursos que podrían interesarte

Temas Virtualpro