logo móvil
Contáctanos

Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres

Autores: Huang, Zhigao; Chen, Musheng; Zheng, Shiyan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desafíos
Mezcla de expertos
Eficiencia computacional
Modelos de transformadores
Balanceo de carga
Arquitectura neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Este artículo desafía la suposición prevalente de que la Mezcla de Expertos (MoE) mejora consistentemente la eficiencia computacional a través de una evaluación sistemática de las variantes de MoE en modelos Transformer. Implementamos y comparamos tres enfoques: MoE básico, enrutamiento top-k y enrutamiento con capacidad factorizada, cada uno abordando progresivamente los desafíos de balanceo de carga. Nuestros experimentos revelan compromisos críticos entre rendimiento y eficiencia: mientras que los modelos MoE mantienen un rendimiento de validación comparable a las líneas base, requieren tiempos de entrenamiento significativamente más largos (un aumento del 50%) y demuestran velocidades de inferencia reducidas (hasta un 56% más lentas). El análisis del comportamiento de enrutamiento muestra que, incluso con técnicas de balanceo de carga, la utilización de expertos sigue estando distribuida de manera desigual. Estos hallazgos proporcionan evidencia empírica de que los beneficios computacionales de MoE dependen en gran medida de la escala del modelo y de las características de la tarea, desafiando suposiciones comunes sobre arquitecturas dispersas y ofreciendo una guía crucial para el diseño de arquitecturas neuronales adaptativas en diferentes restricciones computacionales.

Otros recursos que podrían interesarte

Temas Virtualpro