logo móvil
Contáctanos

Hacia Modelos de Lenguaje Grandes Confiables y Explicables por Diseño para la Evaluación Automatizada de Docentes

Autores: Li, Yuan; Yang, Hang; Fang, Quanrong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Hacia Modelos de Lenguaje Grandes Confiables y Explicables por Diseño para la Evaluación Automatizada de Docentes


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Convencional
Evaluación del docente
Marco explicable por diseño
Atención jerárquica de doble lente
Módulo de inferencia con puerta de confianza
Consistencia entre evaluadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La evaluación convencional de los docentes es laboriosa y subjetiva. Los sistemas anteriores basados en LLM mejoran la escala, pero dependen de racionalizaciones posteriores y carecen de controles de confianza integrados. Proponemos un marco explicable por diseño que combina (i) Atención Jerárquica de Doble Lente - una lente global alineada a los estándares del currículo y una lente local alineada a las rúbricas específicas de la materia - con (ii) un módulo de Inferencia con Puerta de Confianza que combina calibración de Monte-Carlo-dropout y des-biasing adversarial, y (iii) un generador de Explicaciones Inmediatas que comparte la misma representación fusionada y la puntuación predicha utilizada para la toma de decisiones. Así, las explicaciones son consistentes con las decisiones y ancladas en el currículo en lugar de ser adaptadas posteriormente. En TeacherEval-2023, EdNet-Math y MM-TBA, nuestro modelo alcanza una Consistencia Interevaluador del 82.4%, Credibilidad de la Explicación del 0.78, Brecha de Equidad del 1.8% y Error de Calibración Esperado del 0.032. La fidelidad se verifica a través de la alineación de atención a la rúbrica (78%) y pruebas de eliminación contrafactual, mientras que la puerta de confianza reduce las salidas incorrectas con alta confianza y activa el rechazo y referencia cuando la incertidumbre es alta. El sistema mantiene una precisión del 99.6% bajo transferencia entre dominios y solo se degrada un 4.1% con un ruido de ASR del 15%, reduciendo la carga de trabajo de revisión humana en un 41%. Esto establece un camino reproducible hacia LLMs confiables y alineados con la pedagogía para la evaluación educativa de alto riesgo.

Otros recursos que podrían interesarte

Temas Virtualpro