logo móvil
Contáctanos

EvalHack: Inyección de Prompt del Lado de Respuesta para Sondear la Estabilidad del Panel de Calificación de Exámenes de LLM

Autores: Anghel, Catalin; Craciun, Marian Viorel; Cocu, Adina; Anghel, Andreea Alexandra; Balau, Antonio Stefan; Istrate, Adrian; Anghele, Aurelian-Dumitrache

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

EvalHack: Inyección de Prompt del Lado de Respuesta para Sondear la Estabilidad del Panel de Calificación de Exámenes de LLM


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Modelos de lenguaje grandes
Evaluadores automatizados
Manipulación del lado de la respuesta
Paneles de múltiples modelos
Referencia EvalHack
Pipeline de calificación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de lenguaje grandes se utilizan cada vez más como evaluadores automáticos, sin embargo, su fiabilidad ante la manipulación de las respuestas y su comportamiento en paneles de múltiples modelos siguen siendo insuficientemente comprendidos. Este artículo presenta EvalHack, un banco de pruebas en el que un comité fijo de cuatro LLMs evalúa respuestas de exámenes de aprendizaje automático a nivel universitario bajo un estricto contrato de solo enteros (0-10) basado en artefactos de rúbrica elaborados por instructores. El conjunto de datos comprende 100 estudiantes que responden a 10 preguntas cortas y abiertas (1000 respuestas). Para cada respuesta, la evaluación incluye una versión limpia y dos variantes adversariales que preservan el contenido y que operan solo sobre el texto del estudiante: A1, un sufijo coercitivo visible añadido a la respuesta, y A2, una variante sigilosa que utiliza caracteres de control Unicode (por ejemplo, marcas de ancho cero y bidireccionales) para incrustar una instrucción. EvalHack instrumenta todo el proceso de calificación, registrando las puntuaciones de los miembros a nivel de ítem, el agregado del comité, el desacuerdo dentro del panel y las discrepancias con las calificaciones humanas. Empíricamente, las ediciones del lado de la respuesta inducen una inflación sistemática de las puntuaciones y una mayor concentración en el extremo superior, con respuestas editadas agrupándose cerca del extremo superior de la escala. El desacuerdo dentro del panel, medido como el rango entre la puntuación más alta y la más baja de los miembros, varía según las condiciones, con valores medianos de Consistency Spread de 3.0 (limpio), 2.0 (A1) y 6.0 (A2). En comparación con los evaluadores humanos, el panel es más indulgente en promedio (MAE = 1.897; sesgo humano - panel = -1.345). Finalmente, agrupar ítems por desacuerdo muestra que los ítems con bajo desacuerdo exhiben errores humanos-panel más pequeños, lo que indica que la dispersión dentro del panel puede servir como una señal de incertidumbre práctica para dirigir respuestas difíciles a revisión humana o a paneles más grandes/especializados.

Otros recursos que podrían interesarte

Temas Virtualpro