Mapeo de Similaridad de Temas Basado en Convex Hull en Datos Multidimensionales
Autores: Pohorenec, Matú; Vavrák, Vladislav; Behúnová, Annamária; Behún, Marcel; Ennert, Michal
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Mapeo de Similaridad de Temas Basado en Convex Hull en Datos Multidimensionales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Investigación
Análisis temático
Resúmenes de tesis de universidades eslovacas
BERTopic
Agrupamiento K-Means
Ponderación TF-IDF
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Esta investigación presenta un análisis temático a gran escala de 66,002 resúmenes de tesis universitarias eslovacas, con el objetivo de identificar, categorizar y visualizar las tendencias de investigación en múltiples disciplinas académicas. Utilizando BERTopic para modelado de temas no supervisado con agrupamiento K-Means, se extrajeron 3000 clústeres temáticos distintos a través de una rigurosa optimización de coherencia, con cada tema caracterizado por palabras clave representativas derivadas del peso TF-IDF basado en clases. Se generaron incrustaciones de texto utilizando SlovakBERT-STS, un modelo BERT eslovaco adaptado al dominio y ajustado para la similitud textual semántica, produciendo vectores de 768 dimensiones que permiten un cálculo preciso de la similitud coseno entre temas, resultando en una matriz de similitud de temas de 3000 x 3000. El número óptimo de temas se determinó a través de una evaluación sistemática de valores K que oscilan entre 1000 y 10,000, identificándose K = 3000 como la configuración óptima basada en el análisis del codo de coherencia, obteniendo una puntuación media de coherencia de 0.433. Las relaciones temáticas se visualizaron a través de la proyección de Escalado Multidimensional (MDS) a un espacio 3-D, donde las geometrías de envoltura convexa revelan límites semánticos y separabilidad de temas. La metodología incorpora filtrado dinámico de palabras vacías, lematización basada en Stanza para la morfología eslovaca y reducción de dimensionalidad UMAP, logrando una distribución equilibrada de aproximadamente 22 resúmenes por tema. Los resultados demuestran que los modelos de temas de alta resolución con 3000 clústeres pueden extraer una estructura semántica significativa de corpus académicos eslovacos multi-dominio y morfológicamente complejos, a pesar de las limitaciones inherentes de coherencia. El pipeline reproducible proporciona un marco para el descubrimiento de temas a gran escala, la optimización impulsada por la coherencia y la visualización geométrica de las relaciones temáticas en colecciones de textos académicos.
Descripción
Esta investigación presenta un análisis temático a gran escala de 66,002 resúmenes de tesis universitarias eslovacas, con el objetivo de identificar, categorizar y visualizar las tendencias de investigación en múltiples disciplinas académicas. Utilizando BERTopic para modelado de temas no supervisado con agrupamiento K-Means, se extrajeron 3000 clústeres temáticos distintos a través de una rigurosa optimización de coherencia, con cada tema caracterizado por palabras clave representativas derivadas del peso TF-IDF basado en clases. Se generaron incrustaciones de texto utilizando SlovakBERT-STS, un modelo BERT eslovaco adaptado al dominio y ajustado para la similitud textual semántica, produciendo vectores de 768 dimensiones que permiten un cálculo preciso de la similitud coseno entre temas, resultando en una matriz de similitud de temas de 3000 x 3000. El número óptimo de temas se determinó a través de una evaluación sistemática de valores K que oscilan entre 1000 y 10,000, identificándose K = 3000 como la configuración óptima basada en el análisis del codo de coherencia, obteniendo una puntuación media de coherencia de 0.433. Las relaciones temáticas se visualizaron a través de la proyección de Escalado Multidimensional (MDS) a un espacio 3-D, donde las geometrías de envoltura convexa revelan límites semánticos y separabilidad de temas. La metodología incorpora filtrado dinámico de palabras vacías, lematización basada en Stanza para la morfología eslovaca y reducción de dimensionalidad UMAP, logrando una distribución equilibrada de aproximadamente 22 resúmenes por tema. Los resultados demuestran que los modelos de temas de alta resolución con 3000 clústeres pueden extraer una estructura semántica significativa de corpus académicos eslovacos multi-dominio y morfológicamente complejos, a pesar de las limitaciones inherentes de coherencia. El pipeline reproducible proporciona un marco para el descubrimiento de temas a gran escala, la optimización impulsada por la coherencia y la visualización geométrica de las relaciones temáticas en colecciones de textos académicos.