Ponderación de Términos Estructural-Semántica para Modelado de Temas Interpretable con Mayor Coherencia y Menor Superposición de Tokens

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Ponderación de Términos Estructural-Semántica para Modelado de Temas Interpretable con Mayor Coherencia y Menor Superposición de Tokens

Autores: Rodionov, Dmitriy; Konnikov, Evgenii; Golikov, Gleb; Yakob, Polina

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Ponderación de Términos Estructural-Semántica para Modelado de Temas Interpretable con Mayor Coherencia y Menor Superposición de Tokens

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelado de temas

Flujos de noticias

Narrativas económicas

Narrativas políticas

TF-SYN-NER-Rel

Asignación de Dirichlet Latente

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El modelado de temas en grandes flujos de noticias se utiliza ampliamente para reconstruir narrativas económicas y políticas, lo que requiere temas coherentes con baja superposición léxica y que sigan siendo interpretables para los expertos en la materia. Proponemos TF-SYN-NER-Rel, un esquema de ponderación de términos estructural-semántico que extiende el clásico TF-IDF al integrar coeficientes posicionales, sintácticos, fácticos y de entidades nombradas derivados de análisis morfosintácticos y de dependencia de textos de noticias rusas. El método se incorpora en un pipeline estándar de Asignación de Dirichlet Latente (LDA) y se evalúa en un gran corpus de noticias en ruso del archivo en línea de Moskovsky Komsomolets (más de 600,000 documentos), con subconjuntos políticos, financieros y deportivos obtenidos a través de etiquetado experto basado en diccionarios. Para cada subconjunto, TF-SYN-NER-Rel se compara con el TF-IDF estándar bajo configuraciones LDA idénticas, y la calidad del tema se evalúa utilizando la métrica de coherencia C_v. Para evaluar la robustez, repetimos el entrenamiento del modelo a través de múltiples inicializaciones aleatorias y reportamos estadísticas de coherencia agregadas. Los resultados cuantitativos muestran que TF-SYN-NER-Rel mejora la coherencia y produce curvas de coherencia más suaves y estables a través del número de temas. El análisis cualitativo indica una reducción de la superposición léxica entre temas y una separación más clara de los temas centrados en eventos y los institucionales, especialmente en noticias políticas y financieras. En general, el pipeline propuesto se basa en herramientas de PLN basadas en CPU y álgebra lineal dispersa, proporcionando un complemento computacionalmente ligero e interpretable al modelado de temas basado en incrustaciones y LLM en el monitoreo de noticias a gran escala.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro