Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres
Autores: Huang, Zhigao; Chen, Musheng; Zheng, Shiyan
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Desafíos
Mezcla de expertos
Eficiencia computacional
Modelos de transformadores
Balanceo de carga
Arquitectura neuronal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este artículo desafía la suposición prevalente de que la Mezcla de Expertos (MoE) mejora consistentemente la eficiencia computacional a través de una evaluación sistemática de las variantes de MoE en modelos Transformer. Implementamos y comparamos tres enfoques: MoE básico, enrutamiento top-k y enrutamiento con capacidad factorizada, cada uno abordando progresivamente los desafíos de balanceo de carga. Nuestros experimentos revelan compromisos críticos entre rendimiento y eficiencia: mientras que los modelos MoE mantienen un rendimiento de validación comparable a las líneas base, requieren tiempos de entrenamiento significativamente más largos (un aumento del 50%) y demuestran velocidades de inferencia reducidas (hasta un 56% más lentas). El análisis del comportamiento de enrutamiento muestra que, incluso con técnicas de balanceo de carga, la utilización de expertos sigue estando distribuida de manera desigual. Estos hallazgos proporcionan evidencia empírica de que los beneficios computacionales de MoE dependen en gran medida de la escala del modelo y de las características de la tarea, desafiando suposiciones comunes sobre arquitecturas dispersas y ofreciendo una guía crucial para el diseño de arquitecturas neuronales adaptativas en diferentes restricciones computacionales.
Descripción
Este artículo desafía la suposición prevalente de que la Mezcla de Expertos (MoE) mejora consistentemente la eficiencia computacional a través de una evaluación sistemática de las variantes de MoE en modelos Transformer. Implementamos y comparamos tres enfoques: MoE básico, enrutamiento top-k y enrutamiento con capacidad factorizada, cada uno abordando progresivamente los desafíos de balanceo de carga. Nuestros experimentos revelan compromisos críticos entre rendimiento y eficiencia: mientras que los modelos MoE mantienen un rendimiento de validación comparable a las líneas base, requieren tiempos de entrenamiento significativamente más largos (un aumento del 50%) y demuestran velocidades de inferencia reducidas (hasta un 56% más lentas). El análisis del comportamiento de enrutamiento muestra que, incluso con técnicas de balanceo de carga, la utilización de expertos sigue estando distribuida de manera desigual. Estos hallazgos proporcionan evidencia empírica de que los beneficios computacionales de MoE dependen en gran medida de la escala del modelo y de las características de la tarea, desafiando suposiciones comunes sobre arquitecturas dispersas y ofreciendo una guía crucial para el diseño de arquitecturas neuronales adaptativas en diferentes restricciones computacionales.