Destilación de Conocimiento Jerárquica para una Compresión y Transferencia Eficiente de Modelos: Un Enfoque de Agregación Multinivel
Autores: Kitrungrotsakul, Titinunt; Srichola, Preeyanuch
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Destilación de Conocimiento Jerárquica para una Compresión y Transferencia Eficiente de Modelos: Un Enfoque de Agregación Multinivel
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Modelos de aprendizaje profundo a gran escala
Tareas de teledetección
Destilación de conocimiento
Demandas computacionales y de memoria
Destilación de conocimiento jerárquica de múltiples segmentos
Alineación a nivel de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El éxito de los modelos de aprendizaje profundo a gran escala en tareas de teledetección ha sido transformador, permitiendo avances significativos en la clasificación de imágenes, la detección de objetos y la recuperación de imagen-texto. Sin embargo, sus demandas computacionales y de memoria plantean desafíos para su implementación en entornos con recursos limitados. La destilación de conocimiento (KD) alivia estos problemas al transferir conocimiento de un maestro fuerte a un modelo estudiante, que puede ser compacto para una implementación eficiente o arquitectónicamente adaptado para mejorar la precisión bajo el mismo presupuesto de inferencia. En este artículo, introducimos la Destilación de Conocimiento Multi-Segmento Jerárquico (HIMS_KD), un marco de múltiples etapas que destila secuencialmente conocimiento de un maestro en múltiples modelos asistentes especializados en representaciones de bajo, medio y alto nivel, y luego agrega su conocimiento en el estudiante final. Integramos alineación a nivel de características, alineación auxiliar de similitud-logit y pérdida supervisada durante la destilación. Los experimentos en conjuntos de datos de referencia de teledetección (RSITMD y RSICD) muestran que HIMS_KD mejora el rendimiento de recuperación y potencia la clasificación cero disparo; y cuando se utiliza un estudiante compacto, reduce el costo de implementación mientras mantiene una fuerte precisión.
Descripción
El éxito de los modelos de aprendizaje profundo a gran escala en tareas de teledetección ha sido transformador, permitiendo avances significativos en la clasificación de imágenes, la detección de objetos y la recuperación de imagen-texto. Sin embargo, sus demandas computacionales y de memoria plantean desafíos para su implementación en entornos con recursos limitados. La destilación de conocimiento (KD) alivia estos problemas al transferir conocimiento de un maestro fuerte a un modelo estudiante, que puede ser compacto para una implementación eficiente o arquitectónicamente adaptado para mejorar la precisión bajo el mismo presupuesto de inferencia. En este artículo, introducimos la Destilación de Conocimiento Multi-Segmento Jerárquico (HIMS_KD), un marco de múltiples etapas que destila secuencialmente conocimiento de un maestro en múltiples modelos asistentes especializados en representaciones de bajo, medio y alto nivel, y luego agrega su conocimiento en el estudiante final. Integramos alineación a nivel de características, alineación auxiliar de similitud-logit y pérdida supervisada durante la destilación. Los experimentos en conjuntos de datos de referencia de teledetección (RSITMD y RSICD) muestran que HIMS_KD mejora el rendimiento de recuperación y potencia la clasificación cero disparo; y cuando se utiliza un estudiante compacto, reduce el costo de implementación mientras mantiene una fuerte precisión.