KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande

Autores: Nechakhin, Vladyslav; D"Souza, Jennifer; Eger, Steffen; Auer, Sören

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

KGEval: Evaluando Grafos de Conocimiento Científico con Modelos de Lenguaje Grande

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes

Resúmenes científicos estructurados

Grafo de Conocimiento de Investigación Abierta

LLMs

Métricas de evaluación

Contextos contextuales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento explora la nueva aplicación de los modelos de lenguaje grandes (LLMs) como evaluadores de resúmenes científicos estructurados, una tarea en la que las métricas de evaluación de lenguaje natural tradicionales pueden no aplicarse fácilmente. Aprovechando el Open Research Knowledge Graph (ORKG) como un repositorio de propiedades curadas por humanos, aumentamos un conjunto de datos de referencia generando propiedades correspondientes utilizando tres LLMs distintos: Llama, Mistral y Qwen, bajo tres configuraciones contextuales: contexto ligero (solo el problema de investigación), contexto rico (problema de investigación con título y resumen) y contexto denso (problema de investigación con múltiples artículos similares). Para evaluar la calidad de estas propiedades, empleamos evaluadores LLM (Deepseek, Mistral y Qwen) para calificarlas según criterios que incluyen similitud, relevancia, veracidad, informatividad, coherencia y especificidad. Este estudio aborda preguntas clave de investigación: ¿Cómo se transfieren las rúbricas de LLM como juez a la evaluación de resúmenes estructurados? ¿Cómo se comparan las propiedades generadas por LLM con las anotadas por humanos? ¿Cuáles son las diferencias de rendimiento entre varios LLMs? ¿Cómo afecta la cantidad de entrada contextual a la calidad de generación? El marco de evaluación resultante, KGEval, ofrece un enfoque personalizable que puede extenderse a diversos gráficos de conocimiento y dominios de aplicación. Nuestros hallazgos experimentales revelan patrones distintos en los sesgos de los evaluadores, la sensibilidad contextual y el rendimiento entre modelos, destacando así tanto la promesa como los desafíos de integrar LLMs en la evaluación científica estructurada.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro