logo móvil
Contáctanos

Explorando la Literatura Científica Usando Modelado de Temas: Un Marco Práctico para el Descubrimiento y la Clasificación

Autores: Alipour Yengejeh, Amir; Tang, Larry; Bridge, Candice M.; Kundu, Chandra

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Explorando la Literatura Científica Usando Modelado de Temas: Un Marco Práctico para el Descubrimiento y la Clasificación


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Publicaciones científicas
Modelado de temas
Clasificación supervisada
Asignación de Dirichlet Latente
Selección de modelos bayesianos
XGBoost

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El creciente volumen y diversidad de publicaciones científicas plantea desafíos para el descubrimiento de temas escalable e interpretable y la categorización automatizada de documentos. Este estudio propone un marco integrado que combina modelado de temas probabilístico con clasificación supervisada para apoyar el análisis de literatura científica a gran escala. Utilizando 3689 resúmenes de la Revista de Ciencias Forenses (2009-2022), se aplica la Asignación de Dirichlet Latente (LDA) para descubrir estructuras temáticas latentes, evaluar la diagnosticidad de los temas a través de disciplinas forenses y analizar tendencias de investigación temporales. La selección de modelos bayesianos con re-muestreo repetido identifica una resolución de temas estable, con el número de temas T en el rango de 83-88, produciendo temas semánticamente coherentes y alineados con las disciplinas. Las representaciones documento-tema resultantes se utilizan luego para la clasificación supervisada de resúmenes. A través de múltiples modelos y escenarios de re-muestreo, se logra el rendimiento más fuerte y estable bajo una configuración de Categoría Agrupada. En particular, XGBoost alcanza una Precisión de 0.754 y un puntaje F1 promedio macro de 0.737 en T=88, con resultados comparables en conteos de temas vecinos, lo que indica robustez ante la granularidad de los temas. En general, el marco propuesto proporciona un pipeline reproducible, interpretable y computacionalmente eficiente para la organización de literatura, análisis de tendencias y mejora de metadatos en dominios científicos.

Otros recursos que podrían interesarte

Temas Virtualpro