LGFA-MTKD: Mejorando la Destilación de Conocimiento Multi-Profesor con Atención de Frecuencia Local y Global

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

LGFA-MTKD: Mejorando la Destilación de Conocimiento Multi-Profesor con Atención de Frecuencia Local y Global

Autores: Cheng, Xin; Zhou, Jinjia

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

LGFA-MTKD: Mejorando la Destilación de Conocimiento Multi-Profesor con Atención de Frecuencia Local y Global

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Extensivo

Variado

Destilación de conocimiento

Técnicas de atención

Evaluaciones experimentales

Mejora del rendimiento

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Transferir el extenso y variado conocimiento contenido en múltiples modelos complejos a un modelo de estudiante más compacto presenta desafíos significativos en la destilación de conocimiento de múltiples maestros. Los enfoques de destilación tradicionales a menudo no logran cumplir en este contexto, ya que luchan por capturar e integrar completamente la amplia gama de información valiosa de cada maestro. La variación en el conocimiento ofrecido por los diferentes modelos de maestros complica la capacidad del modelo de estudiante para aprender de manera efectiva y generalizar bien, lo que resulta en resultados inferiores. Para superar estas limitaciones, introducimos un método innovador que integra técnicas de atención de frecuencia tanto localizadas como globalizadas, con el objetivo de mejorar sustancialmente el proceso de destilación. Al centrarse simultáneamente en detalles locales finos y patrones globales amplios, nuestro enfoque permite que el modelo de estudiante comprenda de manera más efectiva la información compleja y diversa proporcionada por cada maestro, mejorando así su capacidad de aprendizaje. Este mecanismo de atención dual permite una asimilación más equilibrada de detalles específicos y conceptos generalizados, resultando en un modelo de estudiante más robusto y preciso. Evaluaciones experimentales extensivas en benchmarks estándar demuestran que nuestra metodología supera de manera confiable el rendimiento de los métodos actuales de destilación de múltiples maestros, obteniendo resultados sobresalientes tanto en rendimiento como en robustez. Específicamente, nuestro enfoque logra una mejora promedio de rendimiento del 0.55% sobre CA-MKD, con una ganancia del 1.05% en condiciones óptimas. Estos hallazgos sugieren que los mecanismos de atención basados en frecuencia pueden desbloquear un nuevo potencial en la destilación de conocimiento, la compresión de modelos y el aprendizaje por transferencia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro