Hacia Modelos de Lenguaje Grandes Confiables y Explicables por Diseño para la Evaluación Automatizada de Docentes

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Hacia Modelos de Lenguaje Grandes Confiables y Explicables por Diseño para la Evaluación Automatizada de Docentes

Autores: Li, Yuan; Yang, Hang; Fang, Quanrong

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Hacia Modelos de Lenguaje Grandes Confiables y Explicables por Diseño para la Evaluación Automatizada de Docentes

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Convencional

Evaluación del docente

Marco explicable por diseño

Atención jerárquica de doble lente

Módulo de inferencia con puerta de confianza

Consistencia entre evaluadores

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La evaluación convencional de los docentes es laboriosa y subjetiva. Los sistemas anteriores basados en LLM mejoran la escala, pero dependen de racionalizaciones posteriores y carecen de controles de confianza integrados. Proponemos un marco explicable por diseño que combina (i) Atención Jerárquica de Doble Lente - una lente global alineada a los estándares del currículo y una lente local alineada a las rúbricas específicas de la materia - con (ii) un módulo de Inferencia con Puerta de Confianza que combina calibración de Monte-Carlo-dropout y des-biasing adversarial, y (iii) un generador de Explicaciones Inmediatas que comparte la misma representación fusionada y la puntuación predicha utilizada para la toma de decisiones. Así, las explicaciones son consistentes con las decisiones y ancladas en el currículo en lugar de ser adaptadas posteriormente. En TeacherEval-2023, EdNet-Math y MM-TBA, nuestro modelo alcanza una Consistencia Interevaluador del 82.4%, Credibilidad de la Explicación del 0.78, Brecha de Equidad del 1.8% y Error de Calibración Esperado del 0.032. La fidelidad se verifica a través de la alineación de atención a la rúbrica (78%) y pruebas de eliminación contrafactual, mientras que la puerta de confianza reduce las salidas incorrectas con alta confianza y activa el rechazo y referencia cuando la incertidumbre es alta. El sistema mantiene una precisión del 99.6% bajo transferencia entre dominios y solo se degrada un 4.1% con un ruido de ASR del 15%, reduciendo la carga de trabajo de revisión humana en un 41%. Esto establece un camino reproducible hacia LLMs confiables y alineados con la pedagogía para la evaluación educativa de alto riesgo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro