Dabc: un método de reconocimiento de entidades con mecanismos de atención
Autores: Leng, Fangling; Li, Fan; Bao, Yubin; Zhang, Tiancheng; Yu, Ge
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Dabc: un método de reconocimiento de entidades con mecanismos de atención
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos existentes
Extracción de características
Reconocimiento de entidades con nombres chinos
DeBERTa-Attention-BiLSTM-CRF (DABC)
Mecanismo de atención
Conjunto de datos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
En cuanto a los modelos existentes para la extracción de características de entidades complejas similares, existen problemas en la utilización de información de posición relativa y la capacidad de extracción de características clave. La singularidad del reconocimiento de entidades con nombres chinos en comparación con el inglés radica en la ausencia de delimitadores de espacio, la polisemia significativa y homonimia de caracteres, nombres diversos y comunes, y una mayor dependencia de estructuras contextuales y lingüísticas complejas. Se propone un método de reconocimiento de entidades basado en DeBERTa-Attention-BiLSTM-CRF (DABC). Primero, se utiliza la capacidad de extracción de características del modelo DeBERTa para extraer las características de los datos; luego, se introduce el mecanismo de atención para mejorar aún más las características extraídas; finalmente, se utiliza BiLSTM para capturar aún más las dependencias a larga distancia en el texto y obtener las secuencias predichas a través de la capa CRF, y luego se identifican las entidades en el texto. El modelo propuesto se aplica al conjunto de datos para su validación. Los experimentos muestran que la precisión () del modelo DABC propuesto en el conjunto de datos alcanza el 88,167%, la recuperación () alcanza el 83,121%, y el valor F1 alcanza el 85,024%. En comparación con otros modelos, el valor F1 mejora en un 35%, y se verifica la superioridad del modelo. En el futuro, se puede ampliar y aplicar para reconocer entidades complejas en más campos.
Descripción
En cuanto a los modelos existentes para la extracción de características de entidades complejas similares, existen problemas en la utilización de información de posición relativa y la capacidad de extracción de características clave. La singularidad del reconocimiento de entidades con nombres chinos en comparación con el inglés radica en la ausencia de delimitadores de espacio, la polisemia significativa y homonimia de caracteres, nombres diversos y comunes, y una mayor dependencia de estructuras contextuales y lingüísticas complejas. Se propone un método de reconocimiento de entidades basado en DeBERTa-Attention-BiLSTM-CRF (DABC). Primero, se utiliza la capacidad de extracción de características del modelo DeBERTa para extraer las características de los datos; luego, se introduce el mecanismo de atención para mejorar aún más las características extraídas; finalmente, se utiliza BiLSTM para capturar aún más las dependencias a larga distancia en el texto y obtener las secuencias predichas a través de la capa CRF, y luego se identifican las entidades en el texto. El modelo propuesto se aplica al conjunto de datos para su validación. Los experimentos muestran que la precisión () del modelo DABC propuesto en el conjunto de datos alcanza el 88,167%, la recuperación () alcanza el 83,121%, y el valor F1 alcanza el 85,024%. En comparación con otros modelos, el valor F1 mejora en un 35%, y se verifica la superioridad del modelo. En el futuro, se puede ampliar y aplicar para reconocer entidades complejas en más campos.