Un estudio sobre el reconocimiento de entidades toponímicas basado en modelos pre-entrenados fusionados con características locales para Genglubu en el Mar del Sur de China
Autores: Wei, Yinwei; Li, Yihong; Zhou, Xiaoyi
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un estudio sobre el reconocimiento de entidades toponímicas basado en modelos pre-entrenados fusionados con características locales para Genglubu en el Mar del Sur de China
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Reconocimiento de entidades toponímicas
ALBERT-Conv1D-BiLSTM-CRF
Modelo de lenguaje pre-entrenado
Política de protección de libros antiguos
Investigación en humanidades digitales
Genglubu
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
El reconocimiento de entidades toponímicas es actualmente un punto crítico de investigación en grafos de conocimiento. Bajo la guía de la política nacional de protección de libros antiguos y la promoción de la ola de investigación en humanidades digitales, este artículo propone un modelo de reconocimiento de entidades toponímicas (ALBERT-Conv1D-BiLSTM-CRF) basado en la fusión de un modelo de lenguaje pre-entrenado y características locales para abordar los problemas de ambigüedad toponímica y las diferencias en las estructuras gramaticales antiguas y modernas en el campo del Genglubu. Este modelo extrae características globales con el módulo ALBERT, fusiona características globales y locales con el módulo Conv1D, realiza modelado de secuencias con el módulo BiLSTM para capturar semántica profunda e información de dependencia a larga distancia, y finalmente, completa la anotación de secuencias con el módulo CRF. Los experimentos muestran que teniendo en cuenta los recursos computacionales y el costo, este modelo mejorado ha mejorado significativamente en comparación con el modelo de referencia (ALBERT-BiLSTM-CRF), y la precisión, recuperación y F1 aumentaron en 0,74%, 1,28% y 1,01% a 98,08%, 96,67% y 97,37%, respectivamente. El modelo logró buenos resultados en el campo de Genglubu.
Descripción
El reconocimiento de entidades toponímicas es actualmente un punto crítico de investigación en grafos de conocimiento. Bajo la guía de la política nacional de protección de libros antiguos y la promoción de la ola de investigación en humanidades digitales, este artículo propone un modelo de reconocimiento de entidades toponímicas (ALBERT-Conv1D-BiLSTM-CRF) basado en la fusión de un modelo de lenguaje pre-entrenado y características locales para abordar los problemas de ambigüedad toponímica y las diferencias en las estructuras gramaticales antiguas y modernas en el campo del Genglubu. Este modelo extrae características globales con el módulo ALBERT, fusiona características globales y locales con el módulo Conv1D, realiza modelado de secuencias con el módulo BiLSTM para capturar semántica profunda e información de dependencia a larga distancia, y finalmente, completa la anotación de secuencias con el módulo CRF. Los experimentos muestran que teniendo en cuenta los recursos computacionales y el costo, este modelo mejorado ha mejorado significativamente en comparación con el modelo de referencia (ALBERT-BiLSTM-CRF), y la precisión, recuperación y F1 aumentaron en 0,74%, 1,28% y 1,01% a 98,08%, 96,67% y 97,37%, respectivamente. El modelo logró buenos resultados en el campo de Genglubu.