Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales
Autores: Fraile-Hernández, Jesús M.; Peñas, Anselmo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Fiabilidad
Evaluaciones de rendimiento
Modelos no deterministas
Modelos de lenguaje grandes
Intervalos de confianza
Variabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Medir la fiabilidad de las evaluaciones de rendimiento es particularmente importante cuando evaluamos modelos no deterministas. Este es el caso del uso de grandes modelos de lenguaje (LLMs) en tareas de clasificación, donde diferentes ejecuciones generan diferentes resultados. Este hecho plantea la pregunta sobre cuán fiable es la evaluación de una solución. Trabajos anteriores se basan en ejecutar varias ejecuciones y luego tomar algún tipo de promedio junto con intervalos de confianza. Sin embargo, los intervalos de confianza en sí mismos pueden no ser fiables si el número de ejecuciones no es lo suficientemente grande. Por lo tanto, se necesitan métodos más efectivos y robustos para su estimación. En este trabajo, proponemos una metodología que estima el rendimiento del modelo mientras captura la variabilidad intra-ejecución aprovechando las predicciones a nivel de instancia a través de múltiples ejecuciones, lo que permite el cálculo de intervalos de confianza más fiables cuando el estándar de oro está disponible. Nuestro método también ofrece una mayor eficiencia computacional al reducir el número de ejecuciones completas del modelo requeridas para estimar la variabilidad del rendimiento. En comparación con los métodos de evaluación de última generación existentes, nuestro enfoque logra una cobertura empírica completa (100%) de los resultados de rendimiento plausibles utilizando tan solo tres ejecuciones, mientras que los métodos tradicionales alcanzan como máximo un 63% de cobertura, incluso con ocho ejecuciones.
Descripción
Medir la fiabilidad de las evaluaciones de rendimiento es particularmente importante cuando evaluamos modelos no deterministas. Este es el caso del uso de grandes modelos de lenguaje (LLMs) en tareas de clasificación, donde diferentes ejecuciones generan diferentes resultados. Este hecho plantea la pregunta sobre cuán fiable es la evaluación de una solución. Trabajos anteriores se basan en ejecutar varias ejecuciones y luego tomar algún tipo de promedio junto con intervalos de confianza. Sin embargo, los intervalos de confianza en sí mismos pueden no ser fiables si el número de ejecuciones no es lo suficientemente grande. Por lo tanto, se necesitan métodos más efectivos y robustos para su estimación. En este trabajo, proponemos una metodología que estima el rendimiento del modelo mientras captura la variabilidad intra-ejecución aprovechando las predicciones a nivel de instancia a través de múltiples ejecuciones, lo que permite el cálculo de intervalos de confianza más fiables cuando el estándar de oro está disponible. Nuestro método también ofrece una mayor eficiencia computacional al reducir el número de ejecuciones completas del modelo requeridas para estimar la variabilidad del rendimiento. En comparación con los métodos de evaluación de última generación existentes, nuestro enfoque logra una cobertura empírica completa (100%) de los resultados de rendimiento plausibles utilizando tan solo tres ejecuciones, mientras que los métodos tradicionales alcanzan como máximo un 63% de cobertura, incluso con ocho ejecuciones.