Detección de temas de investigación emergentes mediante Filtered-LDA
Autores: Alattar, Fuad; Shaalan, Khaled
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Detección de temas de investigación emergentes mediante Filtered-LDA
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Temas
Documentos
Emergentes
Filtrado-LDA
Limitaciones
Palabras clave
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Comparar dos conjuntos de documentos para identificar nuevos temas es útil en muchas aplicaciones, como descubrir temas de tendencia a partir de conjuntos de documentos científicos, detectar temas emergentes en microblogs e interpretar variaciones de sentimiento en Twitter. En este documento, se examinan los enfoques principales basados en modelado de temas para abordar esta tarea con el fin de identificar limitaciones y mejoras necesarias. Para superar estas limitaciones, presentamos dos marcos separados para descubrir temas emergentes a través de un modelo de asignación latente de Dirichlet filtrado (filtered-LDA). El modelo actúa como un filtro que identifica temas antiguos en un conjunto de documentos con marca de tiempo, elimina todos los documentos que se centran en temas antiguos y conserva los documentos que tratan sobre temas nuevos. Filtered-LDA también reduce genuinamente la posibilidad de utilizar palabras clave de temas antiguos para representar temas emergentes. La etapa final del filtro utiliza múltiples formatos de visualización de temas para mejorar la interpretabilidad humana de los temas filtrados y presenta el documento más representativo para cada tema.
Descripción
Comparar dos conjuntos de documentos para identificar nuevos temas es útil en muchas aplicaciones, como descubrir temas de tendencia a partir de conjuntos de documentos científicos, detectar temas emergentes en microblogs e interpretar variaciones de sentimiento en Twitter. En este documento, se examinan los enfoques principales basados en modelado de temas para abordar esta tarea con el fin de identificar limitaciones y mejoras necesarias. Para superar estas limitaciones, presentamos dos marcos separados para descubrir temas emergentes a través de un modelo de asignación latente de Dirichlet filtrado (filtered-LDA). El modelo actúa como un filtro que identifica temas antiguos en un conjunto de documentos con marca de tiempo, elimina todos los documentos que se centran en temas antiguos y conserva los documentos que tratan sobre temas nuevos. Filtered-LDA también reduce genuinamente la posibilidad de utilizar palabras clave de temas antiguos para representar temas emergentes. La etapa final del filtro utiliza múltiples formatos de visualización de temas para mejorar la interpretabilidad humana de los temas filtrados y presenta el documento más representativo para cada tema.