Explorando la Literatura Científica Usando Modelado de Temas: Un Marco Práctico para el Descubrimiento y la Clasificación
Autores: Alipour Yengejeh, Amir; Tang, Larry; Bridge, Candice M.; Kundu, Chandra
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Explorando la Literatura Científica Usando Modelado de Temas: Un Marco Práctico para el Descubrimiento y la Clasificación
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Publicaciones científicas
Modelado de temas
Clasificación supervisada
Asignación de Dirichlet Latente
Selección de modelos bayesianos
XGBoost
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El creciente volumen y diversidad de publicaciones científicas plantea desafíos para el descubrimiento de temas escalable e interpretable y la categorización automatizada de documentos. Este estudio propone un marco integrado que combina modelado de temas probabilístico con clasificación supervisada para apoyar el análisis de literatura científica a gran escala. Utilizando 3689 resúmenes de la Revista de Ciencias Forenses (2009-2022), se aplica la Asignación de Dirichlet Latente (LDA) para descubrir estructuras temáticas latentes, evaluar la diagnosticidad de los temas a través de disciplinas forenses y analizar tendencias de investigación temporales. La selección de modelos bayesianos con re-muestreo repetido identifica una resolución de temas estable, con el número de temas T en el rango de 83-88, produciendo temas semánticamente coherentes y alineados con las disciplinas. Las representaciones documento-tema resultantes se utilizan luego para la clasificación supervisada de resúmenes. A través de múltiples modelos y escenarios de re-muestreo, se logra el rendimiento más fuerte y estable bajo una configuración de Categoría Agrupada. En particular, XGBoost alcanza una Precisión de 0.754 y un puntaje F1 promedio macro de 0.737 en T=88, con resultados comparables en conteos de temas vecinos, lo que indica robustez ante la granularidad de los temas. En general, el marco propuesto proporciona un pipeline reproducible, interpretable y computacionalmente eficiente para la organización de literatura, análisis de tendencias y mejora de metadatos en dominios científicos.
Descripción
El creciente volumen y diversidad de publicaciones científicas plantea desafíos para el descubrimiento de temas escalable e interpretable y la categorización automatizada de documentos. Este estudio propone un marco integrado que combina modelado de temas probabilístico con clasificación supervisada para apoyar el análisis de literatura científica a gran escala. Utilizando 3689 resúmenes de la Revista de Ciencias Forenses (2009-2022), se aplica la Asignación de Dirichlet Latente (LDA) para descubrir estructuras temáticas latentes, evaluar la diagnosticidad de los temas a través de disciplinas forenses y analizar tendencias de investigación temporales. La selección de modelos bayesianos con re-muestreo repetido identifica una resolución de temas estable, con el número de temas T en el rango de 83-88, produciendo temas semánticamente coherentes y alineados con las disciplinas. Las representaciones documento-tema resultantes se utilizan luego para la clasificación supervisada de resúmenes. A través de múltiples modelos y escenarios de re-muestreo, se logra el rendimiento más fuerte y estable bajo una configuración de Categoría Agrupada. En particular, XGBoost alcanza una Precisión de 0.754 y un puntaje F1 promedio macro de 0.737 en T=88, con resultados comparables en conteos de temas vecinos, lo que indica robustez ante la granularidad de los temas. En general, el marco propuesto proporciona un pipeline reproducible, interpretable y computacionalmente eficiente para la organización de literatura, análisis de tendencias y mejora de metadatos en dominios científicos.