Ponderación de Términos Estructural-Semántica para Modelado de Temas Interpretable con Mayor Coherencia y Menor Superposición de Tokens
Autores: Rodionov, Dmitriy; Konnikov, Evgenii; Golikov, Gleb; Yakob, Polina
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ponderación de Términos Estructural-Semántica para Modelado de Temas Interpretable con Mayor Coherencia y Menor Superposición de Tokens
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelado de temas
Flujos de noticias
Narrativas económicas
Narrativas políticas
TF-SYN-NER-Rel
Asignación de Dirichlet Latente
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El modelado de temas en grandes flujos de noticias se utiliza ampliamente para reconstruir narrativas económicas y políticas, lo que requiere temas coherentes con baja superposición léxica y que sigan siendo interpretables para los expertos en la materia. Proponemos TF-SYN-NER-Rel, un esquema de ponderación de términos estructural-semántico que extiende el clásico TF-IDF al integrar coeficientes posicionales, sintácticos, fácticos y de entidades nombradas derivados de análisis morfosintácticos y de dependencia de textos de noticias rusas. El método se incorpora en un pipeline estándar de Asignación de Dirichlet Latente (LDA) y se evalúa en un gran corpus de noticias en ruso del archivo en línea de Moskovsky Komsomolets (más de 600,000 documentos), con subconjuntos políticos, financieros y deportivos obtenidos a través de etiquetado experto basado en diccionarios. Para cada subconjunto, TF-SYN-NER-Rel se compara con el TF-IDF estándar bajo configuraciones LDA idénticas, y la calidad del tema se evalúa utilizando la métrica de coherencia C_v. Para evaluar la robustez, repetimos el entrenamiento del modelo a través de múltiples inicializaciones aleatorias y reportamos estadísticas de coherencia agregadas. Los resultados cuantitativos muestran que TF-SYN-NER-Rel mejora la coherencia y produce curvas de coherencia más suaves y estables a través del número de temas. El análisis cualitativo indica una reducción de la superposición léxica entre temas y una separación más clara de los temas centrados en eventos y los institucionales, especialmente en noticias políticas y financieras. En general, el pipeline propuesto se basa en herramientas de PLN basadas en CPU y álgebra lineal dispersa, proporcionando un complemento computacionalmente ligero e interpretable al modelado de temas basado en incrustaciones y LLM en el monitoreo de noticias a gran escala.
Descripción
El modelado de temas en grandes flujos de noticias se utiliza ampliamente para reconstruir narrativas económicas y políticas, lo que requiere temas coherentes con baja superposición léxica y que sigan siendo interpretables para los expertos en la materia. Proponemos TF-SYN-NER-Rel, un esquema de ponderación de términos estructural-semántico que extiende el clásico TF-IDF al integrar coeficientes posicionales, sintácticos, fácticos y de entidades nombradas derivados de análisis morfosintácticos y de dependencia de textos de noticias rusas. El método se incorpora en un pipeline estándar de Asignación de Dirichlet Latente (LDA) y se evalúa en un gran corpus de noticias en ruso del archivo en línea de Moskovsky Komsomolets (más de 600,000 documentos), con subconjuntos políticos, financieros y deportivos obtenidos a través de etiquetado experto basado en diccionarios. Para cada subconjunto, TF-SYN-NER-Rel se compara con el TF-IDF estándar bajo configuraciones LDA idénticas, y la calidad del tema se evalúa utilizando la métrica de coherencia C_v. Para evaluar la robustez, repetimos el entrenamiento del modelo a través de múltiples inicializaciones aleatorias y reportamos estadísticas de coherencia agregadas. Los resultados cuantitativos muestran que TF-SYN-NER-Rel mejora la coherencia y produce curvas de coherencia más suaves y estables a través del número de temas. El análisis cualitativo indica una reducción de la superposición léxica entre temas y una separación más clara de los temas centrados en eventos y los institucionales, especialmente en noticias políticas y financieras. En general, el pipeline propuesto se basa en herramientas de PLN basadas en CPU y álgebra lineal dispersa, proporcionando un complemento computacionalmente ligero e interpretable al modelado de temas basado en incrustaciones y LLM en el monitoreo de noticias a gran escala.