AWdpCNER: reconocimiento de entidades con nombres chinos automatizado de texto sobre enfermedades y plagas del trigo
Autores: Zhang, Demeng; Zheng, Guang; Liu, Hebing; Ma, Xinming; Xi, Lei
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
AWdpCNER: reconocimiento de entidades con nombres chinos automatizado de texto sobre enfermedades y plagas del trigo
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Chino
Reconocimiento de entidades con nombre
Enfermedades del trigo
Plagas
Aumento de datos
ALBERT-BiLSTM-CRF
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El reconocimiento de entidades con nombre chino de enfermedades y plagas del trigo es un paso inicial y clave en la construcción de grafos de conocimiento. En el campo de las enfermedades y plagas del trigo, existen problemas como la falta de datos de entrenamiento, entidades anidadas, límites de entidades difusos, diversas categorías de entidades y distribución desigual de entidades. Para resolver los problemas anteriores, se propusieron dos métodos de aumento de datos para expandir la información semántica de las oraciones sobre la premisa de explotar completamente el conocimiento oculto. Luego, se construyó un conjunto de datos de enfermedades y plagas del trigo (WdpDs) para el reconocimiento de entidades con nombre chino que contenía 21 tipos de entidades y su diccionario de dominio (WdpDict), utilizando una combinación de enfoques manuales y basados en diccionarios, para apoyar mejor la tarea de reconocimiento de entidades. Además, se propuso un modelo automatizado de reconocimiento de entidades con nombre chino de enfermedades y plagas del trigo (AWdpCNER). Este modelo se basó en ALBERT-BiLSTM-CRF para el reconocimiento de entidades y definió reglas específicas para calibrar los límites de las entidades después del reconocimiento. El modelo que fusiona ALBERT-BiLSTM-CRF y la enmienda de reglas logró los mejores resultados de reconocimiento, con una precisión del 94.76%, una recuperación del 95.64% y una puntuación F1 del 95.29%. En comparación con los resultados de reconocimiento sin enmienda de reglas, la precisión, la recuperación y la puntuación F1 aumentaron en 0.88 puntos porcentuales, 0.44 puntos porcentuales y 0.75 puntos porcentuales, respectivamente. Los resultados experimentales mostraron que el modelo propuesto podría identificar efectivamente entidades con nombre chino en el campo de las enfermedades y plagas del trigo, y este modelo logró un rendimiento de reconocimiento de vanguardia, superando a varios modelos existentes, lo que proporciona una referencia para otros campos de reconocimiento de entidades con nombre como la seguridad alimentaria y la biología.
Descripción
El reconocimiento de entidades con nombre chino de enfermedades y plagas del trigo es un paso inicial y clave en la construcción de grafos de conocimiento. En el campo de las enfermedades y plagas del trigo, existen problemas como la falta de datos de entrenamiento, entidades anidadas, límites de entidades difusos, diversas categorías de entidades y distribución desigual de entidades. Para resolver los problemas anteriores, se propusieron dos métodos de aumento de datos para expandir la información semántica de las oraciones sobre la premisa de explotar completamente el conocimiento oculto. Luego, se construyó un conjunto de datos de enfermedades y plagas del trigo (WdpDs) para el reconocimiento de entidades con nombre chino que contenía 21 tipos de entidades y su diccionario de dominio (WdpDict), utilizando una combinación de enfoques manuales y basados en diccionarios, para apoyar mejor la tarea de reconocimiento de entidades. Además, se propuso un modelo automatizado de reconocimiento de entidades con nombre chino de enfermedades y plagas del trigo (AWdpCNER). Este modelo se basó en ALBERT-BiLSTM-CRF para el reconocimiento de entidades y definió reglas específicas para calibrar los límites de las entidades después del reconocimiento. El modelo que fusiona ALBERT-BiLSTM-CRF y la enmienda de reglas logró los mejores resultados de reconocimiento, con una precisión del 94.76%, una recuperación del 95.64% y una puntuación F1 del 95.29%. En comparación con los resultados de reconocimiento sin enmienda de reglas, la precisión, la recuperación y la puntuación F1 aumentaron en 0.88 puntos porcentuales, 0.44 puntos porcentuales y 0.75 puntos porcentuales, respectivamente. Los resultados experimentales mostraron que el modelo propuesto podría identificar efectivamente entidades con nombre chino en el campo de las enfermedades y plagas del trigo, y este modelo logró un rendimiento de reconocimiento de vanguardia, superando a varios modelos existentes, lo que proporciona una referencia para otros campos de reconocimiento de entidades con nombre como la seguridad alimentaria y la biología.