Modelos de difusión de desruido en espacio latente basado en modelos
Autores: Scribano, Carmelo; Pezzi, Danilo; Franchini, Giorgia; Prato, Marco
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Modelos de difusión de desruido en espacio latente basado en modelos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Avances
Difusión de modelos generativos
Espacio latente
Autoencoder
Demandas computacionales
Generación de imágenes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Con los recientes avances en el campo de los modelos generativos de difusión, se ha demostrado que definir el proceso generativo en el espacio latente de un autoencoder preentrenado potente puede ofrecer ventajas sustanciales. Este enfoque, al abstraer los detalles imperceptibles de la imagen e introducir una compresión espacial sustancial, hace que el aprendizaje del proceso generativo sea más manejable al reducir significativamente las demandas computacionales y de memoria. En este trabajo, proponemos reemplazar la codificación del autoencoder con un esquema de codificación basado en modelos basados en técnicas tradicionales de compresión de imágenes con pérdida; esta elección no solo disminuye aún más los gastos computacionales, sino que también nos permite explorar los límites de la generación de imágenes en el espacio latente. Nuestros objetivos culminan en la propuesta de una aproximación valiosa para entrenar modelos de difusión continuos dentro de un espacio discreto, acompañada de mejoras en el modelo generativo para valores categóricos. Más allá de los buenos resultados obtenidos para el problema en cuestión, creemos que el trabajo propuesto promete mejorar la adaptabilidad de los modelos generativos de difusión en diversos tipos de datos más allá del ámbito de la imaginería.
Descripción
Con los recientes avances en el campo de los modelos generativos de difusión, se ha demostrado que definir el proceso generativo en el espacio latente de un autoencoder preentrenado potente puede ofrecer ventajas sustanciales. Este enfoque, al abstraer los detalles imperceptibles de la imagen e introducir una compresión espacial sustancial, hace que el aprendizaje del proceso generativo sea más manejable al reducir significativamente las demandas computacionales y de memoria. En este trabajo, proponemos reemplazar la codificación del autoencoder con un esquema de codificación basado en modelos basados en técnicas tradicionales de compresión de imágenes con pérdida; esta elección no solo disminuye aún más los gastos computacionales, sino que también nos permite explorar los límites de la generación de imágenes en el espacio latente. Nuestros objetivos culminan en la propuesta de una aproximación valiosa para entrenar modelos de difusión continuos dentro de un espacio discreto, acompañada de mejoras en el modelo generativo para valores categóricos. Más allá de los buenos resultados obtenidos para el problema en cuestión, creemos que el trabajo propuesto promete mejorar la adaptabilidad de los modelos generativos de difusión en diversos tipos de datos más allá del ámbito de la imaginería.