Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales

Autores: Fraile-Hernández, Jesús M.; Peñas, Anselmo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Sobre la Medición del Rendimiento de Modelos de Lenguaje Grande con Estadísticas Inferenciales

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Fiabilidad

Evaluaciones de rendimiento

Modelos no deterministas

Modelos de lenguaje grandes

Intervalos de confianza

Variabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Medir la fiabilidad de las evaluaciones de rendimiento es particularmente importante cuando evaluamos modelos no deterministas. Este es el caso del uso de grandes modelos de lenguaje (LLMs) en tareas de clasificación, donde diferentes ejecuciones generan diferentes resultados. Este hecho plantea la pregunta sobre cuán fiable es la evaluación de una solución. Trabajos anteriores se basan en ejecutar varias ejecuciones y luego tomar algún tipo de promedio junto con intervalos de confianza. Sin embargo, los intervalos de confianza en sí mismos pueden no ser fiables si el número de ejecuciones no es lo suficientemente grande. Por lo tanto, se necesitan métodos más efectivos y robustos para su estimación. En este trabajo, proponemos una metodología que estima el rendimiento del modelo mientras captura la variabilidad intra-ejecución aprovechando las predicciones a nivel de instancia a través de múltiples ejecuciones, lo que permite el cálculo de intervalos de confianza más fiables cuando el estándar de oro está disponible. Nuestro método también ofrece una mayor eficiencia computacional al reducir el número de ejecuciones completas del modelo requeridas para estimar la variabilidad del rendimiento. En comparación con los métodos de evaluación de última generación existentes, nuestro enfoque logra una cobertura empírica completa (100%) de los resultados de rendimiento plausibles utilizando tan solo tres ejecuciones, mientras que los métodos tradicionales alcanzan como máximo un 63% de cobertura, incluso con ocho ejecuciones.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro