Clasificación de Fuentes de Conocimiento para Modelado de Temas Semi-Supervisado
Autores: Wood, Justin; Arnold, Corey; Wang, Wei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Clasificación de Fuentes de Conocimiento para Modelado de Temas Semi-Supervisado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Trabajo
Fuentes de conocimiento
Modelado de temas
Temas de artículos
Técnica de clasificación
Modelos de temas semisupervisados
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Trabajos recientes sugieren que se pueden agregar fuentes de conocimiento al proceso de modelado de temas para etiquetar temas y mejorar el descubrimiento de temas. Las fuentes de conocimiento suelen consistir en una colección de artículos construidos por humanos, cada uno describiendo un tema (artículo-tema) para un dominio completo. Sin embargo, estos modelos de temas semisupervisados asumen que un corpus contiene temas solo sobre un subconjunto de un dominio. Por lo tanto, durante la inferencia, el modelo debe considerar qué artículos-temas se utilizaron teóricamente para generar el corpus. Dado que las fuentes de conocimiento tienden a ser bastante grandes, los muchos artículos-temas considerados ralentizan el proceso de inferencia. El aumento en el tiempo de ejecución es significativo, con una entrada de fuente de conocimiento mayor a 103 volviéndose inviable para su uso en el modelado de temas. Para aumentar la aplicabilidad de los modelos de temas semisupervisados, se necesitan enfoques para acelerar el tiempo de ejecución general. Este documento presenta una forma de clasificar los temas de las fuentes de conocimiento para satisfacer el objetivo anterior. Nuestro enfoque utiliza un ranking de fuentes de conocimiento, basado en el algoritmo PageRank, para determinar la importancia de un artículo-tema. Al aplicar nuestra técnica de clasificación, podemos eliminar artículos-temas de baja puntuación antes de la inferencia, acelerando el proceso general. Notablemente, esta técnica de clasificación también puede mejorar la perplejidad y la interpretabilidad. Los resultados muestran que nuestro enfoque supera a los métodos base y ayuda significativamente a los modelos de temas semisupervisados. En nuestra evaluación, los rankings de fuentes de conocimiento generan un aumento del 44% en la puntuación f de recuperación de temas, un aumento del 42.6% en la eliminación de temas entre inferencias, un aumento del 64% en la perplejidad, un aumento del 30% en la precisión de asignación de tokens, un aumento del 20% en la interpretabilidad de la composición de temas y un aumento del 5% en la interpretabilidad de la asignación de documentos sobre los métodos base.
Descripción
Trabajos recientes sugieren que se pueden agregar fuentes de conocimiento al proceso de modelado de temas para etiquetar temas y mejorar el descubrimiento de temas. Las fuentes de conocimiento suelen consistir en una colección de artículos construidos por humanos, cada uno describiendo un tema (artículo-tema) para un dominio completo. Sin embargo, estos modelos de temas semisupervisados asumen que un corpus contiene temas solo sobre un subconjunto de un dominio. Por lo tanto, durante la inferencia, el modelo debe considerar qué artículos-temas se utilizaron teóricamente para generar el corpus. Dado que las fuentes de conocimiento tienden a ser bastante grandes, los muchos artículos-temas considerados ralentizan el proceso de inferencia. El aumento en el tiempo de ejecución es significativo, con una entrada de fuente de conocimiento mayor a 103 volviéndose inviable para su uso en el modelado de temas. Para aumentar la aplicabilidad de los modelos de temas semisupervisados, se necesitan enfoques para acelerar el tiempo de ejecución general. Este documento presenta una forma de clasificar los temas de las fuentes de conocimiento para satisfacer el objetivo anterior. Nuestro enfoque utiliza un ranking de fuentes de conocimiento, basado en el algoritmo PageRank, para determinar la importancia de un artículo-tema. Al aplicar nuestra técnica de clasificación, podemos eliminar artículos-temas de baja puntuación antes de la inferencia, acelerando el proceso general. Notablemente, esta técnica de clasificación también puede mejorar la perplejidad y la interpretabilidad. Los resultados muestran que nuestro enfoque supera a los métodos base y ayuda significativamente a los modelos de temas semisupervisados. En nuestra evaluación, los rankings de fuentes de conocimiento generan un aumento del 44% en la puntuación f de recuperación de temas, un aumento del 42.6% en la eliminación de temas entre inferencias, un aumento del 64% en la perplejidad, un aumento del 30% en la precisión de asignación de tokens, un aumento del 20% en la interpretabilidad de la composición de temas y un aumento del 5% en la interpretabilidad de la asignación de documentos sobre los métodos base.