Marco de poda automatizado para modelos de lenguaje grandes utilizando optimización combinatoria
Autores: Ratsapa, Patcharapol; Thonglek, Kundjanasith; Chantrapornchai, Chantana; Ichikawa, Kohei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Marco de poda automatizado para modelos de lenguaje grandes utilizando optimización combinatoria
Categoría
Ingeniería y Tecnología
Subcategoría
Inteligencia Artificial
Palabras clave
Modelos de lenguaje grandes
Enfoque automatizado
Reducción de tamaño
Poda de modelo
Optimización combinatoria
Optimización de enjambre de partículas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Actualmente, los modelos de lenguaje grandes (LLMs) se han utilizado en muchos aspectos del procesamiento del lenguaje natural. Sin embargo, debido a su tamaño significativo y altas demandas computacionales, se requieren grandes recursos computacionales para su implementación. En esta investigación, nos enfocamos en el enfoque automatizado para la reducción de tamaño de dicho modelo. Proponemos el marco para realizar la poda automatizada basada en optimización combinatoria. Se estudiaron dos técnicas en particular, es decir, la optimización por enjambre de partículas (PSO) y el algoritmo de optimización de ballenas (WOA). El problema de la poda del modelo se modeló como una tarea de optimización combinatoria cuyo objetivo es minimizar el tamaño del modelo manteniendo la precisión del modelo. El marco explora sistemáticamente el espacio de búsqueda para identificar las configuraciones de poda más óptimas, eliminando parámetros redundantes o no contribuyentes. Las dos optimizaciones, PSO y WOA, se evaluaron por su capacidad para navegar eficientemente en el espacio de búsqueda. Como resultado, con PSO, el marco propuesto puede reducir el tamaño del modelo de Llama-3.1-70B en un 13.44% manteniendo la pérdida de precisión del modelo en un 19.25%; con WOA, la reducción del tamaño del modelo es del 12.07% con una pérdida de precisión del modelo del 22.81%. Dado que la degradación de la precisión puede ocurrir durante el proceso de poda, el marco integra el postprocesamiento para recuperar la precisión del modelo. Después de este proceso, la pérdida del modelo podado puede reducirse al 12.72% y 14.83% utilizando PSO y WOA, respectivamente.
Descripción
Actualmente, los modelos de lenguaje grandes (LLMs) se han utilizado en muchos aspectos del procesamiento del lenguaje natural. Sin embargo, debido a su tamaño significativo y altas demandas computacionales, se requieren grandes recursos computacionales para su implementación. En esta investigación, nos enfocamos en el enfoque automatizado para la reducción de tamaño de dicho modelo. Proponemos el marco para realizar la poda automatizada basada en optimización combinatoria. Se estudiaron dos técnicas en particular, es decir, la optimización por enjambre de partículas (PSO) y el algoritmo de optimización de ballenas (WOA). El problema de la poda del modelo se modeló como una tarea de optimización combinatoria cuyo objetivo es minimizar el tamaño del modelo manteniendo la precisión del modelo. El marco explora sistemáticamente el espacio de búsqueda para identificar las configuraciones de poda más óptimas, eliminando parámetros redundantes o no contribuyentes. Las dos optimizaciones, PSO y WOA, se evaluaron por su capacidad para navegar eficientemente en el espacio de búsqueda. Como resultado, con PSO, el marco propuesto puede reducir el tamaño del modelo de Llama-3.1-70B en un 13.44% manteniendo la pérdida de precisión del modelo en un 19.25%; con WOA, la reducción del tamaño del modelo es del 12.07% con una pérdida de precisión del modelo del 22.81%. Dado que la degradación de la precisión puede ocurrir durante el proceso de poda, el marco integra el postprocesamiento para recuperar la precisión del modelo. Después de este proceso, la pérdida del modelo podado puede reducirse al 12.72% y 14.83% utilizando PSO y WOA, respectivamente.