Evaluación de Calidad de la IA Generativa en la Certificación de Ciberseguridad
Autores: Félix, Vanessa G.; Ostos, Rodolfo; Mena, Luis J.; Toral-Cruz, Homero; Ochoa-Brust, Alberto; Velarde-Alvarado, Pablo; González-Potes, Apolinar; Félix-Cuadras, Ramón A.; León-Borges, José A.; Martínez-Peláez, Rafael
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Evaluación de Calidad de la IA Generativa en la Certificación de Ciberseguridad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Inteligencia artificial
Educación
Exámenes de certificación
LLMs
Ciberseguridad
Evaluación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La Inteligencia Artificial Generativa (GenAI), particularmente los Modelos de Lenguaje Grande (LLMs), está cambiando rápidamente la forma en que la educación superior aborda la enseñanza, el aprendizaje y la evaluación. En la educación en ciberseguridad, los exámenes de certificación profesional son clave para medir la competencia y ayudar a los profesionales a encontrar mejores ofertas de trabajo, pero hay poca investigación sobre cómo los sistemas GenAI se desempeñan en estos entornos de examen. Este estudio analiza cómo tres LLMs populares, ChatGPT-5, Gemini-2.5 Pro y Copilot-2.5 Pro, manejan 183 preguntas de práctica de la certificación CompTIA Security+. El estudio utilizó una evaluación en dos fases: una evaluación basada en el dominio y un examen de práctica completo que refleja las pruebas de certificación reales. Los investigadores midieron el rendimiento del modelo con puntajes de precisión, pruebas de chi-cuadrado para diferencias estadísticas y una taxonomía de errores para identificar patrones de errores importantes para la educación. Los tres sistemas GenAI obtuvieron puntajes por encima de la marca de aprobación, y no hubo diferencias significativas entre ellos. Sin embargo, el análisis de errores mostró errores conceptuales y de clasificación continuos que no se reflejaron en los puntajes de precisión generales. Nuestros resultados muestran que los sistemas GenAI pueden aprobar pruebas de certificación estructuradas, pero la precisión por sí sola no mide completamente las habilidades profesionales. El estudio señala problemas importantes para la fiabilidad y validez de las evaluaciones basadas en IA en la educación superior y enfatiza la necesidad de formas más realistas y centradas en conceptos para evaluar GenAI en la educación en ciberseguridad.
Descripción
La Inteligencia Artificial Generativa (GenAI), particularmente los Modelos de Lenguaje Grande (LLMs), está cambiando rápidamente la forma en que la educación superior aborda la enseñanza, el aprendizaje y la evaluación. En la educación en ciberseguridad, los exámenes de certificación profesional son clave para medir la competencia y ayudar a los profesionales a encontrar mejores ofertas de trabajo, pero hay poca investigación sobre cómo los sistemas GenAI se desempeñan en estos entornos de examen. Este estudio analiza cómo tres LLMs populares, ChatGPT-5, Gemini-2.5 Pro y Copilot-2.5 Pro, manejan 183 preguntas de práctica de la certificación CompTIA Security+. El estudio utilizó una evaluación en dos fases: una evaluación basada en el dominio y un examen de práctica completo que refleja las pruebas de certificación reales. Los investigadores midieron el rendimiento del modelo con puntajes de precisión, pruebas de chi-cuadrado para diferencias estadísticas y una taxonomía de errores para identificar patrones de errores importantes para la educación. Los tres sistemas GenAI obtuvieron puntajes por encima de la marca de aprobación, y no hubo diferencias significativas entre ellos. Sin embargo, el análisis de errores mostró errores conceptuales y de clasificación continuos que no se reflejaron en los puntajes de precisión generales. Nuestros resultados muestran que los sistemas GenAI pueden aprobar pruebas de certificación estructuradas, pero la precisión por sí sola no mide completamente las habilidades profesionales. El estudio señala problemas importantes para la fiabilidad y validez de las evaluaciones basadas en IA en la educación superior y enfatiza la necesidad de formas más realistas y centradas en conceptos para evaluar GenAI en la educación en ciberseguridad.