LiteMP-VTON: Un modelo de difusión destilado de conocimiento para un probado virtual realista y eficiente
Autores: Zhang, Shufang; Wang, Lei; Ding, Wenxin
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
LiteMP-VTON: Un modelo de difusión destilado de conocimiento para un probado virtual realista y eficiente
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Difusión basada
Prueba virtual
Compresión de conocimiento a nivel de características
MP-VTON
LiteMP-VTON
Destilación guiada por atención
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los enfoques basados en difusión han surgido recientemente como alternativas poderosas a los métodos de prueba virtual basados en GAN, ofreciendo una mejor preservación de detalles y realismo visual. A pesar de sus ventajas, el número sustancial de parámetros y los intensivos requisitos computacionales representan barreras significativas para su implementación en plataformas de bajos recursos. Para abordar estas limitaciones, proponemos un marco de prueba virtual basado en difusión optimizado a través de la compresión de conocimiento a nivel de características. Nuestro método introduce MP-VTON, un pipeline de inpainting mejorado basado en Stable Diffusion, que incorpora técnicas de enmascaramiento mejoradas y mejora condicionada por pose para aliviar los artefactos en los bordes de las prendas. Para reducir el tamaño del modelo mientras se mantiene el rendimiento, adoptamos una estrategia de destilación guiada por atención que transfiere conocimiento semántico y estructural de MP-VTON a un modelo ligero, LiteMP-VTON. Los experimentos demuestran que LiteMP-VTON logra casi una reducción de 3x en el conteo de parámetros y cerca de 2x en la velocidad de inferencia, lo que lo hace adecuado para su implementación en entornos con recursos limitados sin comprometer significativamente la calidad de generación.
Descripción
Los enfoques basados en difusión han surgido recientemente como alternativas poderosas a los métodos de prueba virtual basados en GAN, ofreciendo una mejor preservación de detalles y realismo visual. A pesar de sus ventajas, el número sustancial de parámetros y los intensivos requisitos computacionales representan barreras significativas para su implementación en plataformas de bajos recursos. Para abordar estas limitaciones, proponemos un marco de prueba virtual basado en difusión optimizado a través de la compresión de conocimiento a nivel de características. Nuestro método introduce MP-VTON, un pipeline de inpainting mejorado basado en Stable Diffusion, que incorpora técnicas de enmascaramiento mejoradas y mejora condicionada por pose para aliviar los artefactos en los bordes de las prendas. Para reducir el tamaño del modelo mientras se mantiene el rendimiento, adoptamos una estrategia de destilación guiada por atención que transfiere conocimiento semántico y estructural de MP-VTON a un modelo ligero, LiteMP-VTON. Los experimentos demuestran que LiteMP-VTON logra casi una reducción de 3x en el conteo de parámetros y cerca de 2x en la velocidad de inferencia, lo que lo hace adecuado para su implementación en entornos con recursos limitados sin comprometer significativamente la calidad de generación.