Investigación sobre el reconocimiento de entidades anidadas chinas basado en IDCNNLR y GlobalPointer
Autores: Li, Weijun; Liu, Jintong; Gao, Yuxiao; Zhang, Xinyong; Gu, Jianlai
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigación sobre el reconocimiento de entidades anidadas chinas basado en IDCNNLR y GlobalPointer
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Sistemas
Palabras clave
Reconocimiento de entidades
Entidades anidadas
Extracción semántica
Modelos NER
Reconocimiento de entidades nombradas anidadas en chino
Módulo GlobalPointer
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
La tarea de reconocimiento de entidades nombradas (NER) consiste en identificar entidades en el texto y predecir sus categorías. En escenarios de la vida real, el contexto del texto suele ser complejo y puede haber entidades anidadas dentro de una entidad. Este tipo de entidad se llama entidad anidada, y la tarea de reconocer entidades con estructuras anidadas se conoce como reconocimiento de entidades nombradas anidadas. La mayoría de los modelos de NER existentes solo pueden manejar entidades planas, y ha habido un progreso limitado en la investigación de reconocimiento de entidades nombradas anidadas en chino, lo que resulta en relativamente pocos modelos en esta dirección. Los modelos de NER generales tienen capacidades limitadas de extracción semántica y no pueden capturar información semántica profunda entre entidades anidadas en el texto. Para abordar estos problemas, este documento propone un modelo que utiliza el módulo GlobalPointer para identificar entidades anidadas en el texto y construye el módulo de extracción semántica IDCNNLR para extraer información semántica profunda. Además, se incorporan mecanismos de autoatención de múltiples cabezas en el modelo en múltiples posiciones para lograr la descontaminación de datos, mejorando la calidad de las características semánticas. El modelo propuesto considera cada límite de entidad posible a través del módulo GlobalPointer, y se introducen el módulo de extracción semántica IDCNNLR y el mecanismo de atención de múltiples posiciones para mejorar la capacidad de extracción semántica del modelo. Los resultados experimentales demuestran que el modelo propuesto alcanza puntuaciones del 69.617% y 79.285% en el conjunto de datos de reconocimiento de entidades anidadas chinas CMeEE y en el conjunto de datos de reconocimiento de entidades de granularidad fina chinas CLUENER2020, respectivamente. El modelo muestra una mejora en comparación con los modelos de referencia, y cada punto de innovación muestra un aumento efectivo del rendimiento en experimentos ablativos.
Descripción
La tarea de reconocimiento de entidades nombradas (NER) consiste en identificar entidades en el texto y predecir sus categorías. En escenarios de la vida real, el contexto del texto suele ser complejo y puede haber entidades anidadas dentro de una entidad. Este tipo de entidad se llama entidad anidada, y la tarea de reconocer entidades con estructuras anidadas se conoce como reconocimiento de entidades nombradas anidadas. La mayoría de los modelos de NER existentes solo pueden manejar entidades planas, y ha habido un progreso limitado en la investigación de reconocimiento de entidades nombradas anidadas en chino, lo que resulta en relativamente pocos modelos en esta dirección. Los modelos de NER generales tienen capacidades limitadas de extracción semántica y no pueden capturar información semántica profunda entre entidades anidadas en el texto. Para abordar estos problemas, este documento propone un modelo que utiliza el módulo GlobalPointer para identificar entidades anidadas en el texto y construye el módulo de extracción semántica IDCNNLR para extraer información semántica profunda. Además, se incorporan mecanismos de autoatención de múltiples cabezas en el modelo en múltiples posiciones para lograr la descontaminación de datos, mejorando la calidad de las características semánticas. El modelo propuesto considera cada límite de entidad posible a través del módulo GlobalPointer, y se introducen el módulo de extracción semántica IDCNNLR y el mecanismo de atención de múltiples posiciones para mejorar la capacidad de extracción semántica del modelo. Los resultados experimentales demuestran que el modelo propuesto alcanza puntuaciones del 69.617% y 79.285% en el conjunto de datos de reconocimiento de entidades anidadas chinas CMeEE y en el conjunto de datos de reconocimiento de entidades de granularidad fina chinas CLUENER2020, respectivamente. El modelo muestra una mejora en comparación con los modelos de referencia, y cada punto de innovación muestra un aumento efectivo del rendimiento en experimentos ablativos.