logo móvil
Contáctanos

Validez de la Evaluación en la Era de la IA Generativa: Un Experimento Natural

Autores: Brattli, Håvar; Utne, Alexander; Lynch, Matthew

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Validez de la Evaluación en la Era de la IA Generativa: Un Experimento Natural


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Universidades
Evaluación
Inteligencia artificial
Calificaciones
Educación superior
Examen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Las universidades desempeñan un papel dual como sitios de aprendizaje y como instituciones que certifican la competencia de los estudiantes a través de la evaluación. La rápida difusión de la inteligencia artificial generativa (GenAI) desafía esta función de certificación al alterar las condiciones bajo las cuales se produce la evidencia de evaluación. Cuando las herramientas de IA potentes están ampliamente disponibles, las calificaciones pueden reflejar cada vez más una combinación de comprensión individual y apoyo cognitivo externo en lugar de una competencia independiente únicamente. Este estudio examina cómo los cambios en el formato de evaluación interactúan con la disponibilidad de GenAI para remodelar los resultados de rendimiento observables en la educación superior. Utilizando datos de calificaciones de exámenes de un curso de pregrado obligatorio impartido durante cinco años (2021-2025; N = 1066), el estudio aprovecha un cambio natural en las condiciones de evaluación como un experimento natural. Desde 2021 hasta 2024, el curso se evaluó utilizando un examen en casa permitido por IA, mientras que en 2025 la evaluación cambió a un examen en persona supervisado y restringido por IA. El contenido del curso, los resultados de aprendizaje previstos, los criterios de calificación, la continuidad del examinador y el diseño estructural de las tareas de examen se mantuvieron estables a lo largo de las cohortes. Los resultados revelan un cambio pronunciado en las distribuciones de calificaciones coincidiendo con el cambio de formato. Las tasas de fracaso aumentaron drásticamente en 2025, las calificaciones intermedias disminuyeron y la proporción de calificaciones altas se mantuvo en gran medida sin cambios. El análisis estadístico indica una asociación significativa entre el período de examen y los resultados de calificaciones (2(5, N = 1066) = 60.62, p < 0.001), con un tamaño del efecto pequeño a moderado (V de Cramér = 0.24), impulsado principalmente por el aumento en las calificaciones de reprobación. Estos hallazgos sugieren que los formatos de evaluación permitidos por IA y restringidos por IA pueden no ser equivalentes en la medición bajo condiciones de uso generalizado de GenAI. Los resultados plantean preocupaciones sobre la validez del constructo y la credibilidad de las calificaciones como señales de competencia independiente, al tiempo que destacan las tensiones entre la credibilidad de la certificación y la autenticidad de la evaluación.

Otros recursos que podrían interesarte

Temas Virtualpro