EvalHack: Inyección de Prompt del Lado de Respuesta para Sondear la Estabilidad del Panel de Calificación de Exámenes de LLM
Autores: Anghel, Catalin; Craciun, Marian Viorel; Cocu, Adina; Anghel, Andreea Alexandra; Balau, Antonio Stefan; Istrate, Adrian; Anghele, Aurelian-Dumitrache
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
EvalHack: Inyección de Prompt del Lado de Respuesta para Sondear la Estabilidad del Panel de Calificación de Exámenes de LLM
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de lenguaje grandes
Evaluadores automatizados
Manipulación del lado de la respuesta
Paneles de múltiples modelos
Referencia EvalHack
Pipeline de calificación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de lenguaje grandes se utilizan cada vez más como evaluadores automáticos, sin embargo, su fiabilidad ante la manipulación de las respuestas y su comportamiento en paneles de múltiples modelos siguen siendo insuficientemente comprendidos. Este artículo presenta EvalHack, un banco de pruebas en el que un comité fijo de cuatro LLMs evalúa respuestas de exámenes de aprendizaje automático a nivel universitario bajo un estricto contrato de solo enteros (0-10) basado en artefactos de rúbrica elaborados por instructores. El conjunto de datos comprende 100 estudiantes que responden a 10 preguntas cortas y abiertas (1000 respuestas). Para cada respuesta, la evaluación incluye una versión limpia y dos variantes adversariales que preservan el contenido y que operan solo sobre el texto del estudiante: A1, un sufijo coercitivo visible añadido a la respuesta, y A2, una variante sigilosa que utiliza caracteres de control Unicode (por ejemplo, marcas de ancho cero y bidireccionales) para incrustar una instrucción. EvalHack instrumenta todo el proceso de calificación, registrando las puntuaciones de los miembros a nivel de ítem, el agregado del comité, el desacuerdo dentro del panel y las discrepancias con las calificaciones humanas. Empíricamente, las ediciones del lado de la respuesta inducen una inflación sistemática de las puntuaciones y una mayor concentración en el extremo superior, con respuestas editadas agrupándose cerca del extremo superior de la escala. El desacuerdo dentro del panel, medido como el rango entre la puntuación más alta y la más baja de los miembros, varía según las condiciones, con valores medianos de Consistency Spread de 3.0 (limpio), 2.0 (A1) y 6.0 (A2). En comparación con los evaluadores humanos, el panel es más indulgente en promedio (MAE = 1.897; sesgo humano - panel = -1.345). Finalmente, agrupar ítems por desacuerdo muestra que los ítems con bajo desacuerdo exhiben errores humanos-panel más pequeños, lo que indica que la dispersión dentro del panel puede servir como una señal de incertidumbre práctica para dirigir respuestas difíciles a revisión humana o a paneles más grandes/especializados.
Descripción
Los modelos de lenguaje grandes se utilizan cada vez más como evaluadores automáticos, sin embargo, su fiabilidad ante la manipulación de las respuestas y su comportamiento en paneles de múltiples modelos siguen siendo insuficientemente comprendidos. Este artículo presenta EvalHack, un banco de pruebas en el que un comité fijo de cuatro LLMs evalúa respuestas de exámenes de aprendizaje automático a nivel universitario bajo un estricto contrato de solo enteros (0-10) basado en artefactos de rúbrica elaborados por instructores. El conjunto de datos comprende 100 estudiantes que responden a 10 preguntas cortas y abiertas (1000 respuestas). Para cada respuesta, la evaluación incluye una versión limpia y dos variantes adversariales que preservan el contenido y que operan solo sobre el texto del estudiante: A1, un sufijo coercitivo visible añadido a la respuesta, y A2, una variante sigilosa que utiliza caracteres de control Unicode (por ejemplo, marcas de ancho cero y bidireccionales) para incrustar una instrucción. EvalHack instrumenta todo el proceso de calificación, registrando las puntuaciones de los miembros a nivel de ítem, el agregado del comité, el desacuerdo dentro del panel y las discrepancias con las calificaciones humanas. Empíricamente, las ediciones del lado de la respuesta inducen una inflación sistemática de las puntuaciones y una mayor concentración en el extremo superior, con respuestas editadas agrupándose cerca del extremo superior de la escala. El desacuerdo dentro del panel, medido como el rango entre la puntuación más alta y la más baja de los miembros, varía según las condiciones, con valores medianos de Consistency Spread de 3.0 (limpio), 2.0 (A1) y 6.0 (A2). En comparación con los evaluadores humanos, el panel es más indulgente en promedio (MAE = 1.897; sesgo humano - panel = -1.345). Finalmente, agrupar ítems por desacuerdo muestra que los ítems con bajo desacuerdo exhiben errores humanos-panel más pequeños, lo que indica que la dispersión dentro del panel puede servir como una señal de incertidumbre práctica para dirigir respuestas difíciles a revisión humana o a paneles más grandes/especializados.