logo móvil
Contáctanos

Clasificación de Fuentes de Conocimiento para Modelado de Temas Semi-Supervisado

Autores: Wood, Justin; Arnold, Corey; Wang, Wei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Clasificación de Fuentes de Conocimiento para Modelado de Temas Semi-Supervisado


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Trabajo
Fuentes de conocimiento
Modelado de temas
Temas de artículos
Técnica de clasificación
Modelos de temas semisupervisados

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Trabajos recientes sugieren que se pueden agregar fuentes de conocimiento al proceso de modelado de temas para etiquetar temas y mejorar el descubrimiento de temas. Las fuentes de conocimiento suelen consistir en una colección de artículos construidos por humanos, cada uno describiendo un tema (artículo-tema) para un dominio completo. Sin embargo, estos modelos de temas semisupervisados asumen que un corpus contiene temas solo sobre un subconjunto de un dominio. Por lo tanto, durante la inferencia, el modelo debe considerar qué artículos-temas se utilizaron teóricamente para generar el corpus. Dado que las fuentes de conocimiento tienden a ser bastante grandes, los muchos artículos-temas considerados ralentizan el proceso de inferencia. El aumento en el tiempo de ejecución es significativo, con una entrada de fuente de conocimiento mayor a 103 volviéndose inviable para su uso en el modelado de temas. Para aumentar la aplicabilidad de los modelos de temas semisupervisados, se necesitan enfoques para acelerar el tiempo de ejecución general. Este documento presenta una forma de clasificar los temas de las fuentes de conocimiento para satisfacer el objetivo anterior. Nuestro enfoque utiliza un ranking de fuentes de conocimiento, basado en el algoritmo PageRank, para determinar la importancia de un artículo-tema. Al aplicar nuestra técnica de clasificación, podemos eliminar artículos-temas de baja puntuación antes de la inferencia, acelerando el proceso general. Notablemente, esta técnica de clasificación también puede mejorar la perplejidad y la interpretabilidad. Los resultados muestran que nuestro enfoque supera a los métodos base y ayuda significativamente a los modelos de temas semisupervisados. En nuestra evaluación, los rankings de fuentes de conocimiento generan un aumento del 44% en la puntuación f de recuperación de temas, un aumento del 42.6% en la eliminación de temas entre inferencias, un aumento del 64% en la perplejidad, un aumento del 30% en la precisión de asignación de tokens, un aumento del 20% en la interpretabilidad de la composición de temas y un aumento del 5% en la interpretabilidad de la asignación de documentos sobre los métodos base.

Otros recursos que podrían interesarte

Temas Virtualpro