Algoritmo de traducción de imagen multimodal basado en Singular Squeeze-and-Excitation Network

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Algoritmo de traducción de imagen multimodal basado en Singular Squeeze-and-Excitation Network

Autores: Tu, Hangyao; Wang, Zheng; Zhao, Yanwei

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Algoritmo de traducción de imagen multimodal basado en Singular Squeeze-and-Excitation Network

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Traducción de imagen a imagen

Detalles a nivel de píxeles

Detalles a nivel de instancia

Traducción de imagen multimodal

Red de Excitación de Squeeze Singular

GANs

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 30

Citaciones: Sin citaciones

Los métodos de traducción de imagen a imagen han avanzado desde centrarse en la información a nivel de imagen hasta incorporar detalles a nivel de píxel e instancia. Sin embargo, con la restricción a nivel de características, se produce una desviación cuando la red sobre enfatiza las características convolucionales, descuidando la extracción de características de imagen tradicionales. Para abordar esto, propusimos el algoritmo de traducción de imagen multimodal MASSE basado en una Red Singular Squeeze-and-Excitation, combinando GANs y SENet. Utiliza características SVD para ayudar a la SENet a gestionar el grado de escalado. La SENet emplea SVD para extraer características y mejorar la operación de Excitación para obtener nuevos pesos de atención de canal y formar mapas de características de atención. Luego, las características de contenido de la imagen se refinan combinando mapas de características convolucionales y de atención, y las características de estilo se obtienen mediante el generador de estilo. Finalmente, las características de contenido y estilo se combinan para generar nuevas imágenes de estilo. Los experimentos de ablación mostraron que el parámetro SVD óptimo es 128, produciendo los mejores resultados de traducción. Según FID, MASSE supera a los métodos actuales en la generación de imágenes diversas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro