Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero

Autores: Yang, Ruisen; Gan, Yong; Zhang, Chenfang

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Reconocimiento de Entidades Nombradas Chinas Basado en BERT y Modelo de Extracción de Características Ligero

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Reconocimiento de entidades

Modelo Transformer

Mecanismo de atención

BERT

Eficiencia computacional

CRF

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En los primeros modelos de reconocimiento de entidades nombradas, la mayoría del procesamiento de texto se centraba únicamente en la representación de palabras individuales y vectores de caracteres, y prestaba poca atención a las relaciones semánticas entre el texto anterior y posterior en una expresión, lo que llevó a la incapacidad de manejar el problema de los múltiples significados de una palabra durante el reconocimiento. Para abordar este problema, la mayoría de los modelos introducen el mecanismo de atención del modelo Transformer para resolver el problema de los múltiples significados de una palabra en el texto. Sin embargo, el modelo Transformer tradicional conduce a una alta sobrecarga computacional debido a su estructura completamente conectada. Por lo tanto, este artículo propone un nuevo modelo, el modelo BERT-Star-Transformer-CNN-BiLSTM-CRF, para resolver el problema de la eficiencia computacional del Transformer tradicional. Primero, el texto de entrada se genera dinámicamente en un vector de caracteres utilizando el modelo BERT preentrenado en grandes condiciones previas para resolver el problema de los múltiples significados de las palabras, y luego se utiliza el modelo Star-Transformer ligero como módulo de extracción de características para realizar la extracción de características locales en la secuencia de vectores de palabras, mientras que el modelo conjunto CNN-BiLSTM se utiliza para realizar la extracción de características globales en el contexto del texto. Las secuencias de características obtenidas se fusionan. Finalmente, las secuencias de vectores de características fusionadas se introducen en CRF para la predicción de los resultados finales. Después de los experimentos, se muestra que el modelo tiene una mejora significativa en precisión, recuperación y valor F1 en comparación con el modelo tradicional, y la eficiencia computacional se mejora en casi un 40%.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro