logo móvil
Contáctanos

Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales

Autores: Fraile-Hernández, Jesús M.; Peñas, Anselmo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Fiabilidad
Evaluaciones de rendimiento
Modelos no deterministas
Modelos de lenguaje grandes
Intervalos de confianza
Variabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Medir la fiabilidad de las evaluaciones de rendimiento es particularmente importante cuando evaluamos modelos no deterministas. Este es el caso del uso de grandes modelos de lenguaje (LLMs) en tareas de clasificación, donde diferentes ejecuciones generan diferentes resultados. Este hecho plantea la pregunta sobre cuán fiable es la evaluación de una solución. Trabajos anteriores se basan en ejecutar varias ejecuciones y luego tomar algún tipo de promedio junto con intervalos de confianza. Sin embargo, los intervalos de confianza en sí mismos pueden no ser fiables si el número de ejecuciones no es lo suficientemente grande. Por lo tanto, se necesitan métodos más efectivos y robustos para su estimación. En este trabajo, proponemos una metodología que estima el rendimiento del modelo mientras captura la variabilidad intra-ejecución aprovechando las predicciones a nivel de instancia a través de múltiples ejecuciones, lo que permite el cálculo de intervalos de confianza más fiables cuando el estándar de oro está disponible. Nuestro método también ofrece una mayor eficiencia computacional al reducir el número de ejecuciones completas del modelo requeridas para estimar la variabilidad del rendimiento. En comparación con los métodos de evaluación de última generación existentes, nuestro enfoque logra una cobertura empírica completa (100%) de los resultados de rendimiento plausibles utilizando tan solo tres ejecuciones, mientras que los métodos tradicionales alcanzan como máximo un 63% de cobertura, incluso con ocho ejecuciones.

Otros recursos que podrían interesarte

Temas Virtualpro