Gdui: modelo de difusión guiada para imágenes sin etiquetar
Autores: Xie, Xuanyuan; Zhao, Jieyu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Gdui: modelo de difusión guiada para imágenes sin etiquetar
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Modelo de difusión
Síntesis de imágenes
Modelo de difusión guiada
Imágenes no etiquetadas
Algoritmos con conciencia semántica
Imágenes de alta calidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El modelo de difusión ha avanzado en el campo de la síntesis de imágenes, especialmente en el área de la síntesis de imágenes condicionales. Sin embargo, este avance depende en gran medida de grandes conjuntos de datos anotados. Para abordar este desafío, presentamos el modelo de Difusión Guiada para Imágenes No Etiquetadas (GDUI) en este artículo. Utiliza la similitud de características inherentes y las diferencias semánticas en los datos, así como la transferibilidad descendente del Preentrenamiento Contrastivo de Lenguaje-Imagen (CLIP), para guiar al modelo de difusión en la generación de imágenes de alta calidad. Diseñamos dos algoritmos conscientes de la semántica, a saber, el algoritmo de coincidencia de pseudoetiquetas y el algoritmo de refinamiento de coincidencia de etiquetas, para emparejar los resultados de agrupación con la verdadera información semántica y proporcionar una guía más precisa para el modelo de difusión. Primero, GDUI codifica la imagen en un vector latente semánticamente significativo a través de la agrupación. Luego, se utiliza la coincidencia de pseudoetiquetas para completar el emparejamiento de la verdadera información semántica de la imagen. Finalmente, se utiliza el algoritmo de refinamiento de coincidencia de etiquetas para ajustar la información semántica irrelevante en los datos, mejorando así la calidad de la generación de imágenes del modelo de difusión guiada. Nuestros experimentos en conjuntos de datos etiquetados muestran que GDUI supera a los modelos de difusión sin ninguna guía y reduce significativamente la brecha entre ellos y los modelos guiados por etiquetas de verdad.
Descripción
El modelo de difusión ha avanzado en el campo de la síntesis de imágenes, especialmente en el área de la síntesis de imágenes condicionales. Sin embargo, este avance depende en gran medida de grandes conjuntos de datos anotados. Para abordar este desafío, presentamos el modelo de Difusión Guiada para Imágenes No Etiquetadas (GDUI) en este artículo. Utiliza la similitud de características inherentes y las diferencias semánticas en los datos, así como la transferibilidad descendente del Preentrenamiento Contrastivo de Lenguaje-Imagen (CLIP), para guiar al modelo de difusión en la generación de imágenes de alta calidad. Diseñamos dos algoritmos conscientes de la semántica, a saber, el algoritmo de coincidencia de pseudoetiquetas y el algoritmo de refinamiento de coincidencia de etiquetas, para emparejar los resultados de agrupación con la verdadera información semántica y proporcionar una guía más precisa para el modelo de difusión. Primero, GDUI codifica la imagen en un vector latente semánticamente significativo a través de la agrupación. Luego, se utiliza la coincidencia de pseudoetiquetas para completar el emparejamiento de la verdadera información semántica de la imagen. Finalmente, se utiliza el algoritmo de refinamiento de coincidencia de etiquetas para ajustar la información semántica irrelevante en los datos, mejorando así la calidad de la generación de imágenes del modelo de difusión guiada. Nuestros experimentos en conjuntos de datos etiquetados muestran que GDUI supera a los modelos de difusión sin ninguna guía y reduce significativamente la brecha entre ellos y los modelos guiados por etiquetas de verdad.