logo móvil
Contáctanos

KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande

Autores: Nechakhin, Vladyslav; D"Souza, Jennifer; Eger, Steffen; Auer, Sören

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Resúmenes científicos estructurados
Grafo de Conocimiento de Investigación Abierta
LLMs
Métricas de evaluación
Contextos contextuales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este documento explora la nueva aplicación de los modelos de lenguaje grandes (LLMs) como evaluadores de resúmenes científicos estructurados, una tarea en la que las métricas de evaluación de lenguaje natural tradicionales pueden no aplicarse fácilmente. Aprovechando el Open Research Knowledge Graph (ORKG) como un repositorio de propiedades curadas por humanos, aumentamos un conjunto de datos de referencia generando propiedades correspondientes utilizando tres LLMs distintos: Llama, Mistral y Qwen, bajo tres configuraciones contextuales: contexto ligero (solo el problema de investigación), contexto rico (problema de investigación con título y resumen) y contexto denso (problema de investigación con múltiples artículos similares). Para evaluar la calidad de estas propiedades, empleamos evaluadores LLM (Deepseek, Mistral y Qwen) para calificarlas según criterios que incluyen similitud, relevancia, veracidad, informatividad, coherencia y especificidad. Este estudio aborda preguntas clave de investigación: ¿Cómo se transfieren las rúbricas de LLM como juez a la evaluación de resúmenes estructurados? ¿Cómo se comparan las propiedades generadas por LLM con las anotadas por humanos? ¿Cuáles son las diferencias de rendimiento entre varios LLMs? ¿Cómo afecta la cantidad de entrada contextual a la calidad de generación? El marco de evaluación resultante, KGEval, ofrece un enfoque personalizable que puede extenderse a diversos gráficos de conocimiento y dominios de aplicación. Nuestros hallazgos experimentales revelan patrones distintos en los sesgos de los evaluadores, la sensibilidad contextual y el rendimiento entre modelos, destacando así tanto la promesa como los desafíos de integrar LLMs en la evaluación científica estructurada.

Otros recursos que podrían interesarte

Temas Virtualpro