Validez de la Evaluación en la Era de la IA Generativa: Un Experimento Natural
Autores: Brattli, Håvar; Utne, Alexander; Lynch, Matthew
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Validez de la Evaluación en la Era de la IA Generativa: Un Experimento Natural
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Universidades
Evaluación
Inteligencia artificial
Calificaciones
Educación superior
Examen
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las universidades desempeñan un papel dual como sitios de aprendizaje y como instituciones que certifican la competencia de los estudiantes a través de la evaluación. La rápida difusión de la inteligencia artificial generativa (GenAI) desafía esta función de certificación al alterar las condiciones bajo las cuales se produce la evidencia de evaluación. Cuando las herramientas de IA potentes están ampliamente disponibles, las calificaciones pueden reflejar cada vez más una combinación de comprensión individual y apoyo cognitivo externo en lugar de una competencia independiente únicamente. Este estudio examina cómo los cambios en el formato de evaluación interactúan con la disponibilidad de GenAI para remodelar los resultados de rendimiento observables en la educación superior. Utilizando datos de calificaciones de exámenes de un curso de pregrado obligatorio impartido durante cinco años (2021-2025; N = 1066), el estudio aprovecha un cambio natural en las condiciones de evaluación como un experimento natural. Desde 2021 hasta 2024, el curso se evaluó utilizando un examen en casa permitido por IA, mientras que en 2025 la evaluación cambió a un examen en persona supervisado y restringido por IA. El contenido del curso, los resultados de aprendizaje previstos, los criterios de calificación, la continuidad del examinador y el diseño estructural de las tareas de examen se mantuvieron estables a lo largo de las cohortes. Los resultados revelan un cambio pronunciado en las distribuciones de calificaciones coincidiendo con el cambio de formato. Las tasas de fracaso aumentaron drásticamente en 2025, las calificaciones intermedias disminuyeron y la proporción de calificaciones altas se mantuvo en gran medida sin cambios. El análisis estadístico indica una asociación significativa entre el período de examen y los resultados de calificaciones (2(5, N = 1066) = 60.62, p < 0.001), con un tamaño del efecto pequeño a moderado (V de Cramér = 0.24), impulsado principalmente por el aumento en las calificaciones de reprobación. Estos hallazgos sugieren que los formatos de evaluación permitidos por IA y restringidos por IA pueden no ser equivalentes en la medición bajo condiciones de uso generalizado de GenAI. Los resultados plantean preocupaciones sobre la validez del constructo y la credibilidad de las calificaciones como señales de competencia independiente, al tiempo que destacan las tensiones entre la credibilidad de la certificación y la autenticidad de la evaluación.
Descripción
Las universidades desempeñan un papel dual como sitios de aprendizaje y como instituciones que certifican la competencia de los estudiantes a través de la evaluación. La rápida difusión de la inteligencia artificial generativa (GenAI) desafía esta función de certificación al alterar las condiciones bajo las cuales se produce la evidencia de evaluación. Cuando las herramientas de IA potentes están ampliamente disponibles, las calificaciones pueden reflejar cada vez más una combinación de comprensión individual y apoyo cognitivo externo en lugar de una competencia independiente únicamente. Este estudio examina cómo los cambios en el formato de evaluación interactúan con la disponibilidad de GenAI para remodelar los resultados de rendimiento observables en la educación superior. Utilizando datos de calificaciones de exámenes de un curso de pregrado obligatorio impartido durante cinco años (2021-2025; N = 1066), el estudio aprovecha un cambio natural en las condiciones de evaluación como un experimento natural. Desde 2021 hasta 2024, el curso se evaluó utilizando un examen en casa permitido por IA, mientras que en 2025 la evaluación cambió a un examen en persona supervisado y restringido por IA. El contenido del curso, los resultados de aprendizaje previstos, los criterios de calificación, la continuidad del examinador y el diseño estructural de las tareas de examen se mantuvieron estables a lo largo de las cohortes. Los resultados revelan un cambio pronunciado en las distribuciones de calificaciones coincidiendo con el cambio de formato. Las tasas de fracaso aumentaron drásticamente en 2025, las calificaciones intermedias disminuyeron y la proporción de calificaciones altas se mantuvo en gran medida sin cambios. El análisis estadístico indica una asociación significativa entre el período de examen y los resultados de calificaciones (2(5, N = 1066) = 60.62, p < 0.001), con un tamaño del efecto pequeño a moderado (V de Cramér = 0.24), impulsado principalmente por el aumento en las calificaciones de reprobación. Estos hallazgos sugieren que los formatos de evaluación permitidos por IA y restringidos por IA pueden no ser equivalentes en la medición bajo condiciones de uso generalizado de GenAI. Los resultados plantean preocupaciones sobre la validez del constructo y la credibilidad de las calificaciones como señales de competencia independiente, al tiempo que destacan las tensiones entre la credibilidad de la certificación y la autenticidad de la evaluación.