Una tubería mejorada con KeyBERT para gráficos de conocimiento del currículo de información electrónica: diseño, evaluación y alineación de ontologías
Autores: Zhuang, Guanghe; Lu, Xiang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una tubería mejorada con KeyBERT para gráficos de conocimiento del currículo de información electrónica: diseño, evaluación y alineación de ontologías
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Método basado en KeyBERT
Grafo de conocimiento
Sistema de currículo de información electrónica
Representación estructurada
Análisis relacional
Contenido educativo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento propone un método basado en KeyBERT para construir un grafo de conocimiento del sistema curricular de información electrónica, con el objetivo de mejorar la representación estructurada y el análisis relacional del contenido educativo. Los planes de estudio de Ingeniería en Información Electrónica abarcan temas diversos y en rápida evolución; sin embargo, los grafos de conocimiento existentes a menudo pasan por alto conceptos de múltiples palabras y relaciones semánticas más matizadas. Para abordar esta brecha, este documento presenta un método mejorado por KeyBERT para construir un grafo de conocimiento del sistema curricular de información electrónica. Utilizando planes de enseñanza, sílabos y aproximadamente 500,000 palabras de materiales de curso de 17 asignaturas, primero extraímos 500 puntos de conocimiento a través del algoritmo de Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF) para construir una matriz de conocimiento del curso de referencia y visualizar el grafo preliminar utilizando Redes Neuronales Convolucionales (GCN) y Neo4j. Luego aplicamos KeyBERT para extraer alrededor de 1000 puntos de conocimiento; aproximadamente el 65% de los términos extraídos eran frases de múltiples palabras y aumentamos el grafo con bordes de co-ocurrencia y similitud semántica. Experimentos comparativos demuestran un aumento del ~20% en la cobertura de matriz no cero y un aumento del ~40% en el conteo de bordes (de 5100 a 7100), mejorando significativamente la conectividad del grafo. Además, realizamos un análisis de sensibilidad sobre los umbrales de extracción (co-ocurrencia >= 5, similitud >= 0.7), revelando que (5, 0.7) maximiza la puntuación F1 en 0.83. La ablación de hiperparámetros sobre rangos de n-gramas [(1,1),(1,2),(1,3)] y top_n [5, 10, 15] identifica (1,3) + top_n = 10 como óptimo (Precisión = 0.86, Recall = 0.81, F1 = 0.83). Finalmente, las pruebas posteriores de GCN muestran que, a pesar de una mayor escasez (KeyBERT 64% frente a TF-IDF 40%), las características de KeyBERT logran una Precisión = 0.78 y F1 = 0.75, superando el 0.66/0.69 de TF-IDF. Este enfoque ofrece una solución novedosa y rigurosamente evaluada para optimizar el sistema curricular de información electrónica y puede ampliarse a través de la estandarización de terminología o la integración de datos más grandes.
Descripción
Este documento propone un método basado en KeyBERT para construir un grafo de conocimiento del sistema curricular de información electrónica, con el objetivo de mejorar la representación estructurada y el análisis relacional del contenido educativo. Los planes de estudio de Ingeniería en Información Electrónica abarcan temas diversos y en rápida evolución; sin embargo, los grafos de conocimiento existentes a menudo pasan por alto conceptos de múltiples palabras y relaciones semánticas más matizadas. Para abordar esta brecha, este documento presenta un método mejorado por KeyBERT para construir un grafo de conocimiento del sistema curricular de información electrónica. Utilizando planes de enseñanza, sílabos y aproximadamente 500,000 palabras de materiales de curso de 17 asignaturas, primero extraímos 500 puntos de conocimiento a través del algoritmo de Frecuencia de Término-Frecuencia Inversa de Documento (TF-IDF) para construir una matriz de conocimiento del curso de referencia y visualizar el grafo preliminar utilizando Redes Neuronales Convolucionales (GCN) y Neo4j. Luego aplicamos KeyBERT para extraer alrededor de 1000 puntos de conocimiento; aproximadamente el 65% de los términos extraídos eran frases de múltiples palabras y aumentamos el grafo con bordes de co-ocurrencia y similitud semántica. Experimentos comparativos demuestran un aumento del ~20% en la cobertura de matriz no cero y un aumento del ~40% en el conteo de bordes (de 5100 a 7100), mejorando significativamente la conectividad del grafo. Además, realizamos un análisis de sensibilidad sobre los umbrales de extracción (co-ocurrencia >= 5, similitud >= 0.7), revelando que (5, 0.7) maximiza la puntuación F1 en 0.83. La ablación de hiperparámetros sobre rangos de n-gramas [(1,1),(1,2),(1,3)] y top_n [5, 10, 15] identifica (1,3) + top_n = 10 como óptimo (Precisión = 0.86, Recall = 0.81, F1 = 0.83). Finalmente, las pruebas posteriores de GCN muestran que, a pesar de una mayor escasez (KeyBERT 64% frente a TF-IDF 40%), las características de KeyBERT logran una Precisión = 0.78 y F1 = 0.75, superando el 0.66/0.69 de TF-IDF. Este enfoque ofrece una solución novedosa y rigurosamente evaluada para optimizar el sistema curricular de información electrónica y puede ampliarse a través de la estandarización de terminología o la integración de datos más grandes.