Algoritmo de traducción de imagen multimodal basado en Singular Squeeze-and-Excitation Network
Autores: Tu, Hangyao; Wang, Zheng; Zhao, Yanwei
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Algoritmo de traducción de imagen multimodal basado en Singular Squeeze-and-Excitation Network
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Traducción de imagen a imagen
Detalles a nivel de píxeles
Detalles a nivel de instancia
Traducción de imagen multimodal
Red de Excitación de Squeeze Singular
GANs
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Los métodos de traducción de imagen a imagen han avanzado desde centrarse en la información a nivel de imagen hasta incorporar detalles a nivel de píxel e instancia. Sin embargo, con la restricción a nivel de características, se produce una desviación cuando la red sobre enfatiza las características convolucionales, descuidando la extracción de características de imagen tradicionales. Para abordar esto, propusimos el algoritmo de traducción de imagen multimodal MASSE basado en una Red Singular Squeeze-and-Excitation, combinando GANs y SENet. Utiliza características SVD para ayudar a la SENet a gestionar el grado de escalado. La SENet emplea SVD para extraer características y mejorar la operación de Excitación para obtener nuevos pesos de atención de canal y formar mapas de características de atención. Luego, las características de contenido de la imagen se refinan combinando mapas de características convolucionales y de atención, y las características de estilo se obtienen mediante el generador de estilo. Finalmente, las características de contenido y estilo se combinan para generar nuevas imágenes de estilo. Los experimentos de ablación mostraron que el parámetro SVD óptimo es 128, produciendo los mejores resultados de traducción. Según FID, MASSE supera a los métodos actuales en la generación de imágenes diversas.
Descripción
Los métodos de traducción de imagen a imagen han avanzado desde centrarse en la información a nivel de imagen hasta incorporar detalles a nivel de píxel e instancia. Sin embargo, con la restricción a nivel de características, se produce una desviación cuando la red sobre enfatiza las características convolucionales, descuidando la extracción de características de imagen tradicionales. Para abordar esto, propusimos el algoritmo de traducción de imagen multimodal MASSE basado en una Red Singular Squeeze-and-Excitation, combinando GANs y SENet. Utiliza características SVD para ayudar a la SENet a gestionar el grado de escalado. La SENet emplea SVD para extraer características y mejorar la operación de Excitación para obtener nuevos pesos de atención de canal y formar mapas de características de atención. Luego, las características de contenido de la imagen se refinan combinando mapas de características convolucionales y de atención, y las características de estilo se obtienen mediante el generador de estilo. Finalmente, las características de contenido y estilo se combinan para generar nuevas imágenes de estilo. Los experimentos de ablación mostraron que el parámetro SVD óptimo es 128, produciendo los mejores resultados de traducción. Según FID, MASSE supera a los métodos actuales en la generación de imágenes diversas.