Clasificación de sufijos de entidad de rango para el reconocimiento de entidades nombradas chinas anidadas
Autores: Deng, Jianfeng; Zhao, Ruitong; Ye, Wei; Zheng, Suhong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de sufijos de entidad de rango para el reconocimiento de entidades nombradas chinas anidadas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Reconocimiento de entidades nombradas
Estructuras de entidades
Red de memoria a largo y corto plazo bidireccional
Reutilización de características
Reconocimiento de entidades nombradas anidadas
Característica de intervalo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El reconocimiento de entidades nombradas (NER) es una de las tareas fundamentales en la construcción de grafos de conocimiento. Para algunos corpus específicos de dominio, las descripciones textuales exhiben una estandarización limitada, y algunas estructuras de entidades tienen anidamiento de entidades. Los métodos existentes de reconocimiento de entidades presentan problemas como la interferencia del ruido de coincidencia de palabras y la dificultad para distinguir diferentes etiquetas de entidades para el mismo carácter en la predicción de etiquetas de secuencia. Este artículo propone un modelo de reconocimiento de entidades nombradas anidadas (SFRSN) basado en la reutilización de características de rango mediante una red de memoria a largo y corto plazo bidireccional apilada (BiLSTM), que transforma el reconocimiento de entidades de la predicción de secuencias en el problema de clasificación de categorías de sufijos de rango de entidades. En primer lugar, se genera una incrustación de características de caracteres a través de la representación de codificador bidireccional de transformadores (BERT). En segundo lugar, se propone un BiLSTM apilado de reutilización de características para obtener características de contexto profundo mientras se alivia el problema de degradación de redes profundas. En tercer lugar, la característica de rango se obtiene a través de la red neuronal convolucional dilatada (DCNN), y al mismo tiempo, se introduce una función de selección de cola única para obtener la característica de clasificación del sufijo de rango de la entidad, con el objetivo de reducir los parámetros de entrenamiento. En cuarto lugar, se propone un mecanismo de atención de puerta de características globales, integrando características de rango y características de clasificación de sufijos de rango para lograr la clasificación de sufijos de rango. Los resultados experimentales en cuatro conjuntos de datos específicos de dominio chino demuestran la efectividad de nuestro enfoque: SFRSN logra puntuaciones micro-F1 del 83.34% en ontonotes, 73.27% en weibo, 96.90% en resume y 86.77% en el conjunto de datos de gestión de la cadena de suministro. Esto representa una mejora máxima del 1.55%, 4.94%, 2.48% y 3.47% sobre las líneas base de última generación, respectivamente. Los resultados experimentales demuestran la efectividad del modelo para abordar problemas de entidades anidadas y ambigüedad en las etiquetas de entidades.
Descripción
El reconocimiento de entidades nombradas (NER) es una de las tareas fundamentales en la construcción de grafos de conocimiento. Para algunos corpus específicos de dominio, las descripciones textuales exhiben una estandarización limitada, y algunas estructuras de entidades tienen anidamiento de entidades. Los métodos existentes de reconocimiento de entidades presentan problemas como la interferencia del ruido de coincidencia de palabras y la dificultad para distinguir diferentes etiquetas de entidades para el mismo carácter en la predicción de etiquetas de secuencia. Este artículo propone un modelo de reconocimiento de entidades nombradas anidadas (SFRSN) basado en la reutilización de características de rango mediante una red de memoria a largo y corto plazo bidireccional apilada (BiLSTM), que transforma el reconocimiento de entidades de la predicción de secuencias en el problema de clasificación de categorías de sufijos de rango de entidades. En primer lugar, se genera una incrustación de características de caracteres a través de la representación de codificador bidireccional de transformadores (BERT). En segundo lugar, se propone un BiLSTM apilado de reutilización de características para obtener características de contexto profundo mientras se alivia el problema de degradación de redes profundas. En tercer lugar, la característica de rango se obtiene a través de la red neuronal convolucional dilatada (DCNN), y al mismo tiempo, se introduce una función de selección de cola única para obtener la característica de clasificación del sufijo de rango de la entidad, con el objetivo de reducir los parámetros de entrenamiento. En cuarto lugar, se propone un mecanismo de atención de puerta de características globales, integrando características de rango y características de clasificación de sufijos de rango para lograr la clasificación de sufijos de rango. Los resultados experimentales en cuatro conjuntos de datos específicos de dominio chino demuestran la efectividad de nuestro enfoque: SFRSN logra puntuaciones micro-F1 del 83.34% en ontonotes, 73.27% en weibo, 96.90% en resume y 86.77% en el conjunto de datos de gestión de la cadena de suministro. Esto representa una mejora máxima del 1.55%, 4.94%, 2.48% y 3.47% sobre las líneas base de última generación, respectivamente. Los resultados experimentales demuestran la efectividad del modelo para abordar problemas de entidades anidadas y ambigüedad en las etiquetas de entidades.