CHTopo: Un Corpus de Anotación de Topónimos Chinos a Gran Escala y de Múltiples Fuentes
Autores: Ye, Peng; Jiang, Yujin; Wang, Yadi
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
CHTopo: Un Corpus de Anotación de Topónimos Chinos a Gran Escala y de Múltiples Fuentes
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Recursos geográficos
Métodos de reconocimiento de topónimos
Especificaciones de anotación de topónimos chinos
Semántica espacial
Reglas de anotación
Reconocimiento de entidades geográficas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los topónimos son recursos geográficos fundamentales caracterizados por sus atributos espaciales, distintos de los sustantivos generales. Si bien el lenguaje natural proporciona datos toponímicos ricos más allá de los métodos de encuesta tradicionales, su ambigüedad cualitativa y la incertidumbre inherente desafían la extracción sistemática. Los métodos tradicionales de reconocimiento de topónimos basados en el etiquetado de partes del discurso solo se centran en las características superficiales de las palabras, sin poder manejar de manera efectiva escenarios complejos como la anidación de alias, la ambigüedad de la metonimia y la puntuación mixta. Esto conduce a la pérdida de la integridad semántica del topónimo y a desviaciones en el reconocimiento de entidades geográficas. Este estudio propone un conjunto de especificaciones de anotación de topónimos chinos que integran la semántica espacial. Al aprovechar el lenguaje de marcado XML, combina profundamente las características de ubicación espacial de los topónimos con características lingüísticas, y diseña reglas de anotación de alta precisión para abordar las limitaciones de los métodos tradicionales en la integridad semántica y el reconocimiento de entidades geográficas. Sobre esta base, al integrar corpora de múltiples fuentes de la Enciclopedia de China: Geografía China y el Diario del Pueblo, se ha construido un corpus de anotación de topónimos chinos a gran escala (CHTopo) que abarca cinco categorías principales de topónimos. El rendimiento de este corpus anotado se evaluó a través del reconocimiento de topónimos, explorando los métodos de construcción de un corpus anotado de topónimos chinos a gran escala, diversificado y de alta cobertura desde las perspectivas de aplicabilidad y practicidad. CHTopo es propicio para proporcionar apoyo fundamental para la extracción de información geográfica, gráficos de conocimiento espacial e investigación de geoparsing, conectando la inteligencia lingüística y geoespacial.
Descripción
Los topónimos son recursos geográficos fundamentales caracterizados por sus atributos espaciales, distintos de los sustantivos generales. Si bien el lenguaje natural proporciona datos toponímicos ricos más allá de los métodos de encuesta tradicionales, su ambigüedad cualitativa y la incertidumbre inherente desafían la extracción sistemática. Los métodos tradicionales de reconocimiento de topónimos basados en el etiquetado de partes del discurso solo se centran en las características superficiales de las palabras, sin poder manejar de manera efectiva escenarios complejos como la anidación de alias, la ambigüedad de la metonimia y la puntuación mixta. Esto conduce a la pérdida de la integridad semántica del topónimo y a desviaciones en el reconocimiento de entidades geográficas. Este estudio propone un conjunto de especificaciones de anotación de topónimos chinos que integran la semántica espacial. Al aprovechar el lenguaje de marcado XML, combina profundamente las características de ubicación espacial de los topónimos con características lingüísticas, y diseña reglas de anotación de alta precisión para abordar las limitaciones de los métodos tradicionales en la integridad semántica y el reconocimiento de entidades geográficas. Sobre esta base, al integrar corpora de múltiples fuentes de la Enciclopedia de China: Geografía China y el Diario del Pueblo, se ha construido un corpus de anotación de topónimos chinos a gran escala (CHTopo) que abarca cinco categorías principales de topónimos. El rendimiento de este corpus anotado se evaluó a través del reconocimiento de topónimos, explorando los métodos de construcción de un corpus anotado de topónimos chinos a gran escala, diversificado y de alta cobertura desde las perspectivas de aplicabilidad y practicidad. CHTopo es propicio para proporcionar apoyo fundamental para la extracción de información geográfica, gráficos de conocimiento espacial e investigación de geoparsing, conectando la inteligencia lingüística y geoespacial.