Mapeo de Similaridad de Temas Basado en Convex Hull en Datos Multidimensionales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mapeo de Similaridad de Temas Basado en Convex Hull en Datos Multidimensionales

Autores: Pohorenec, Matú; Vavrák, Vladislav; Behúnová, Annamária; Behún, Marcel; Ennert, Michal

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Mapeo de Similaridad de Temas Basado en Convex Hull en Datos Multidimensionales

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Investigación

Análisis temático

Resúmenes de tesis de universidades eslovacas

BERTopic

Agrupamiento K-Means

Ponderación TF-IDF

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Esta investigación presenta un análisis temático a gran escala de 66,002 resúmenes de tesis universitarias eslovacas, con el objetivo de identificar, categorizar y visualizar las tendencias de investigación en múltiples disciplinas académicas. Utilizando BERTopic para modelado de temas no supervisado con agrupamiento K-Means, se extrajeron 3000 clústeres temáticos distintos a través de una rigurosa optimización de coherencia, con cada tema caracterizado por palabras clave representativas derivadas del peso TF-IDF basado en clases. Se generaron incrustaciones de texto utilizando SlovakBERT-STS, un modelo BERT eslovaco adaptado al dominio y ajustado para la similitud textual semántica, produciendo vectores de 768 dimensiones que permiten un cálculo preciso de la similitud coseno entre temas, resultando en una matriz de similitud de temas de 3000 x 3000. El número óptimo de temas se determinó a través de una evaluación sistemática de valores K que oscilan entre 1000 y 10,000, identificándose K = 3000 como la configuración óptima basada en el análisis del codo de coherencia, obteniendo una puntuación media de coherencia de 0.433. Las relaciones temáticas se visualizaron a través de la proyección de Escalado Multidimensional (MDS) a un espacio 3-D, donde las geometrías de envoltura convexa revelan límites semánticos y separabilidad de temas. La metodología incorpora filtrado dinámico de palabras vacías, lematización basada en Stanza para la morfología eslovaca y reducción de dimensionalidad UMAP, logrando una distribución equilibrada de aproximadamente 22 resúmenes por tema. Los resultados demuestran que los modelos de temas de alta resolución con 3000 clústeres pueden extraer una estructura semántica significativa de corpus académicos eslovacos multi-dominio y morfológicamente complejos, a pesar de las limitaciones inherentes de coherencia. El pipeline reproducible proporciona un marco para el descubrimiento de temas a gran escala, la optimización impulsada por la coherencia y la visualización geométrica de las relaciones temáticas en colecciones de textos académicos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro