KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande
Autores: Nechakhin, Vladyslav; D"Souza, Jennifer; Eger, Steffen; Auer, Sören
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Resúmenes científicos estructurados
Grafo de Conocimiento de Investigación Abierta
LLMs
Métricas de evaluación
Contextos contextuales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento explora la nueva aplicación de los modelos de lenguaje grandes (LLMs) como evaluadores de resúmenes científicos estructurados, una tarea en la que las métricas de evaluación de lenguaje natural tradicionales pueden no aplicarse fácilmente. Aprovechando el Open Research Knowledge Graph (ORKG) como un repositorio de propiedades curadas por humanos, aumentamos un conjunto de datos de referencia generando propiedades correspondientes utilizando tres LLMs distintos: Llama, Mistral y Qwen, bajo tres configuraciones contextuales: contexto ligero (solo el problema de investigación), contexto rico (problema de investigación con título y resumen) y contexto denso (problema de investigación con múltiples artículos similares). Para evaluar la calidad de estas propiedades, empleamos evaluadores LLM (Deepseek, Mistral y Qwen) para calificarlas según criterios que incluyen similitud, relevancia, veracidad, informatividad, coherencia y especificidad. Este estudio aborda preguntas clave de investigación: ¿Cómo se transfieren las rúbricas de LLM como juez a la evaluación de resúmenes estructurados? ¿Cómo se comparan las propiedades generadas por LLM con las anotadas por humanos? ¿Cuáles son las diferencias de rendimiento entre varios LLMs? ¿Cómo afecta la cantidad de entrada contextual a la calidad de generación? El marco de evaluación resultante, KGEval, ofrece un enfoque personalizable que puede extenderse a diversos gráficos de conocimiento y dominios de aplicación. Nuestros hallazgos experimentales revelan patrones distintos en los sesgos de los evaluadores, la sensibilidad contextual y el rendimiento entre modelos, destacando así tanto la promesa como los desafíos de integrar LLMs en la evaluación científica estructurada.
Descripción
Este documento explora la nueva aplicación de los modelos de lenguaje grandes (LLMs) como evaluadores de resúmenes científicos estructurados, una tarea en la que las métricas de evaluación de lenguaje natural tradicionales pueden no aplicarse fácilmente. Aprovechando el Open Research Knowledge Graph (ORKG) como un repositorio de propiedades curadas por humanos, aumentamos un conjunto de datos de referencia generando propiedades correspondientes utilizando tres LLMs distintos: Llama, Mistral y Qwen, bajo tres configuraciones contextuales: contexto ligero (solo el problema de investigación), contexto rico (problema de investigación con título y resumen) y contexto denso (problema de investigación con múltiples artículos similares). Para evaluar la calidad de estas propiedades, empleamos evaluadores LLM (Deepseek, Mistral y Qwen) para calificarlas según criterios que incluyen similitud, relevancia, veracidad, informatividad, coherencia y especificidad. Este estudio aborda preguntas clave de investigación: ¿Cómo se transfieren las rúbricas de LLM como juez a la evaluación de resúmenes estructurados? ¿Cómo se comparan las propiedades generadas por LLM con las anotadas por humanos? ¿Cuáles son las diferencias de rendimiento entre varios LLMs? ¿Cómo afecta la cantidad de entrada contextual a la calidad de generación? El marco de evaluación resultante, KGEval, ofrece un enfoque personalizable que puede extenderse a diversos gráficos de conocimiento y dominios de aplicación. Nuestros hallazgos experimentales revelan patrones distintos en los sesgos de los evaluadores, la sensibilidad contextual y el rendimiento entre modelos, destacando así tanto la promesa como los desafíos de integrar LLMs en la evaluación científica estructurada.