logo móvil
Contáctanos

LGFA-MTKD: Mejorando la Destilación de Conocimiento Multi-Profesor con Atención de Frecuencia Local y Global

Autores: Cheng, Xin; Zhou, Jinjia

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

LGFA-MTKD: Mejorando la Destilación de Conocimiento Multi-Profesor con Atención de Frecuencia Local y Global


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Extensivo
Variado
Destilación de conocimiento
Técnicas de atención
Evaluaciones experimentales
Mejora del rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Transferir el extenso y variado conocimiento contenido en múltiples modelos complejos a un modelo de estudiante más compacto presenta desafíos significativos en la destilación de conocimiento de múltiples maestros. Los enfoques de destilación tradicionales a menudo no logran cumplir en este contexto, ya que luchan por capturar e integrar completamente la amplia gama de información valiosa de cada maestro. La variación en el conocimiento ofrecido por los diferentes modelos de maestros complica la capacidad del modelo de estudiante para aprender de manera efectiva y generalizar bien, lo que resulta en resultados inferiores. Para superar estas limitaciones, introducimos un método innovador que integra técnicas de atención de frecuencia tanto localizadas como globalizadas, con el objetivo de mejorar sustancialmente el proceso de destilación. Al centrarse simultáneamente en detalles locales finos y patrones globales amplios, nuestro enfoque permite que el modelo de estudiante comprenda de manera más efectiva la información compleja y diversa proporcionada por cada maestro, mejorando así su capacidad de aprendizaje. Este mecanismo de atención dual permite una asimilación más equilibrada de detalles específicos y conceptos generalizados, resultando en un modelo de estudiante más robusto y preciso. Evaluaciones experimentales extensivas en benchmarks estándar demuestran que nuestra metodología supera de manera confiable el rendimiento de los métodos actuales de destilación de múltiples maestros, obteniendo resultados sobresalientes tanto en rendimiento como en robustez. Específicamente, nuestro enfoque logra una mejora promedio de rendimiento del 0.55% sobre CA-MKD, con una ganancia del 1.05% en condiciones óptimas. Estos hallazgos sugieren que los mecanismos de atención basados en frecuencia pueden desbloquear un nuevo potencial en la destilación de conocimiento, la compresión de modelos y el aprendizaje por transferencia.

Otros recursos que podrían interesarte

Temas Virtualpro