CLFF-NER: Un modelo de fusión de características multilingüe para el reconocimiento de entidades nombradas en el dominio de la cultura del festival chino tradicional
Autores: Yang, Shenghe; He, Kun; Li, Wei; He, Yingying
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
CLFF-NER: Un modelo de fusión de características multilingüe para el reconocimiento de entidades nombradas en el dominio de la cultura del festival chino tradicional
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Preservación digital
Reconocimiento de Entidades Nombradas
Cultura de festivales tradicionales chinos
CLFF-NER
BERT multilingüe
Red Neuronal de Grafos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con el rápido desarrollo de la tecnología de la información, hay una demanda creciente de la preservación digital de la cultura de festivales tradicionales y la extracción de conocimientos relevantes. Sin embargo, la investigación existente sobre el Reconocimiento de Entidades Nombradas (NER) para la cultura de festivales tradicionales chinos carece de apoyo de corpora de alta calidad y métodos de modelo dedicados. Para abordar esta brecha, este estudio propone un modelo de Reconocimiento de Entidades Nombradas, CLFF-NER, que integra información heterogénea de múltiples fuentes. El modelo opera de la siguiente manera: primero, se emplea Multilingual BERT para obtener las representaciones semánticas contextuales de oraciones en chino e inglés. Posteriormente, se utiliza una Red de Núcleo Multiconvolucional (MKN) para extraer las características estructurales locales de las entidades. Luego, se introduce un módulo Transformer para lograr la fusión de semánticas chinas e inglesas a través de la atención cruzada. Además, se utiliza una Red Neuronal de Grafos (GNN) para complementar selectivamente información útil en inglés, aliviando así la interferencia causada por información redundante. Finalmente, se combinan un mecanismo de compuerta y un Campo Aleatorio Condicional (CRF) para optimizar conjuntamente los resultados de reconocimiento. Se realizaron experimentos en el conjunto de datos público de Cultura de Festivales Chinos (CTFCDataSet), y el modelo logró un 89.45%, 90.01% y 89.73% en precisión, recuperación y puntuación F1, respectivamente, superando significativamente a una variedad de modelos de referencia convencionales. Mientras tanto, el modelo también demostró un rendimiento competitivo en otros dos conjuntos de datos públicos, Resume y Weibo, lo que verifica su fuerte capacidad de generalización en dominios cruzados.
Descripción
Con el rápido desarrollo de la tecnología de la información, hay una demanda creciente de la preservación digital de la cultura de festivales tradicionales y la extracción de conocimientos relevantes. Sin embargo, la investigación existente sobre el Reconocimiento de Entidades Nombradas (NER) para la cultura de festivales tradicionales chinos carece de apoyo de corpora de alta calidad y métodos de modelo dedicados. Para abordar esta brecha, este estudio propone un modelo de Reconocimiento de Entidades Nombradas, CLFF-NER, que integra información heterogénea de múltiples fuentes. El modelo opera de la siguiente manera: primero, se emplea Multilingual BERT para obtener las representaciones semánticas contextuales de oraciones en chino e inglés. Posteriormente, se utiliza una Red de Núcleo Multiconvolucional (MKN) para extraer las características estructurales locales de las entidades. Luego, se introduce un módulo Transformer para lograr la fusión de semánticas chinas e inglesas a través de la atención cruzada. Además, se utiliza una Red Neuronal de Grafos (GNN) para complementar selectivamente información útil en inglés, aliviando así la interferencia causada por información redundante. Finalmente, se combinan un mecanismo de compuerta y un Campo Aleatorio Condicional (CRF) para optimizar conjuntamente los resultados de reconocimiento. Se realizaron experimentos en el conjunto de datos público de Cultura de Festivales Chinos (CTFCDataSet), y el modelo logró un 89.45%, 90.01% y 89.73% en precisión, recuperación y puntuación F1, respectivamente, superando significativamente a una variedad de modelos de referencia convencionales. Mientras tanto, el modelo también demostró un rendimiento competitivo en otros dos conjuntos de datos públicos, Resume y Weibo, lo que verifica su fuerte capacidad de generalización en dominios cruzados.