Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres

Autores: Huang, Zhigao; Chen, Musheng; Zheng, Shiyan

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Mezcla Dinámica de Expertos para Cálculo Adaptativo en Transformadores a Nivel de Caracteres

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Desafíos

Mezcla de expertos

Eficiencia computacional

Modelos de transformadores

Balanceo de carga

Arquitectura neuronal

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este artículo desafía la suposición prevalente de que la Mezcla de Expertos (MoE) mejora consistentemente la eficiencia computacional a través de una evaluación sistemática de las variantes de MoE en modelos Transformer. Implementamos y comparamos tres enfoques: MoE básico, enrutamiento top-k y enrutamiento con capacidad factorizada, cada uno abordando progresivamente los desafíos de balanceo de carga. Nuestros experimentos revelan compromisos críticos entre rendimiento y eficiencia: mientras que los modelos MoE mantienen un rendimiento de validación comparable a las líneas base, requieren tiempos de entrenamiento significativamente más largos (un aumento del 50%) y demuestran velocidades de inferencia reducidas (hasta un 56% más lentas). El análisis del comportamiento de enrutamiento muestra que, incluso con técnicas de balanceo de carga, la utilización de expertos sigue estando distribuida de manera desigual. Estos hallazgos proporcionan evidencia empírica de que los beneficios computacionales de MoE dependen en gran medida de la escala del modelo y de las características de la tarea, desafiando suposiciones comunes sobre arquitecturas dispersas y ofreciendo una guía crucial para el diseño de arquitecturas neuronales adaptativas en diferentes restricciones computacionales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro