combinando definiciones de léxico y la generación con recuperación aumentada de un gran modelo de lenguaje para la anotación automática de poesía china antigua
Autores: Li, Jiabin; Wei, Tingxin; Qu, Weiguang; Li, Bin; Feng, Minxuan; Wang, Dongbo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
combinando definiciones de léxico y la generación con recuperación aumentada de un gran modelo de lenguaje para la anotación automática de poesía china antigua
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Anotación automática
Poesía china clásica
Modelo de lenguaje grande
Recuperación de diccionario
Técnica de segmentación
Base de conocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Los enfoques existentes para la anotación automática de poesía china clásica a menudo no logran generar citas precisas de fuentes y dependen en gran medida de la segmentación manual, lo que limita su escalabilidad y precisión. Para abordar estas deficiencias, proponemos un nuevo paradigma que integra la recuperación de diccionarios con mejoras de modelos de lenguaje grandes aumentados por recuperación para la anotación poética automática. Nuestro método aprovecha las capacidades de comprensión contextual de los modelos grandes para seleccionar dinámicamente sentidos léxicos apropiados y emplea una técnica de segmentación automatizada para minimizar la dependencia de la división manual. Para segmentos poéticos ausentes de diccionarios estándar, el sistema recupera información pertinente de una base de conocimientos específica del dominio y genera definiciones fundamentadas en estos datos auxiliares, mejorando sustancialmente tanto la precisión como la cobertura de la anotación. Los resultados experimentales demuestran que nuestro enfoque supera a los modelos de lenguaje grandes de propósito general y a los modelos de lenguaje chino clásico pre-entrenados en tareas de anotación automática; notablemente, logra una precisión micro promediada del 94.33% en segmentos semánticos clave. Al proporcionar anotaciones más precisas y completas, este marco avanza en el análisis computacional de la poesía china clásica y ofrece un potencial significativo para aplicaciones de enseñanza inteligente e investigación en humanidades digitales.
Descripción
Los enfoques existentes para la anotación automática de poesía china clásica a menudo no logran generar citas precisas de fuentes y dependen en gran medida de la segmentación manual, lo que limita su escalabilidad y precisión. Para abordar estas deficiencias, proponemos un nuevo paradigma que integra la recuperación de diccionarios con mejoras de modelos de lenguaje grandes aumentados por recuperación para la anotación poética automática. Nuestro método aprovecha las capacidades de comprensión contextual de los modelos grandes para seleccionar dinámicamente sentidos léxicos apropiados y emplea una técnica de segmentación automatizada para minimizar la dependencia de la división manual. Para segmentos poéticos ausentes de diccionarios estándar, el sistema recupera información pertinente de una base de conocimientos específica del dominio y genera definiciones fundamentadas en estos datos auxiliares, mejorando sustancialmente tanto la precisión como la cobertura de la anotación. Los resultados experimentales demuestran que nuestro enfoque supera a los modelos de lenguaje grandes de propósito general y a los modelos de lenguaje chino clásico pre-entrenados en tareas de anotación automática; notablemente, logra una precisión micro promediada del 94.33% en segmentos semánticos clave. Al proporcionar anotaciones más precisas y completas, este marco avanza en el análisis computacional de la poesía china clásica y ofrece un potencial significativo para aplicaciones de enseñanza inteligente e investigación en humanidades digitales.