
Créditos: Ilustración de Alex Shipps / MIT CSAIL
2024-03-21
La IA genera imágenes de alta calidad 30 veces más rápido en un solo paso
En nuestra era actual de inteligencia artificial, las computadoras pueden generar su propio “arte” mediante modelos de difusión, agregando estructura de manera iterativa a un estado inicial ruidoso hasta que emerge una imagen o un video claro. Los modelos de difusión de repente se han sentado en la mesa de todos: introduzca unas pocas palabras y experimente paisajes oníricos instantáneos que aumentan la dopamina en la intersección de la realidad y la fantasía. Detrás de escena, implica un proceso complejo que requiere mucho tiempo y requiere numerosas iteraciones para que el algoritmo perfeccione la imagen.
Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han introducido un nuevo marco que simplifica el proceso de varios pasos de los modelos de difusión tradicionales en un solo paso, abordando las limitaciones anteriores. Esto se hace a través de un tipo de modelo profesor-alumno: enseñar un nuevo modelo de computadora para imitar el comportamiento de modelos originales más complicados que generan imágenes. El enfoque, conocido como destilación por coincidencia de distribución (DMD), conserva la calidad de las imágenes generadas y permite una generación mucho más rápida.
"Nuestro trabajo es un método novedoso que acelera 30 veces los modelos de difusión actuales, como la Difusión Estable y DALLE-3", dice Tianwei Yin, estudiante de doctorado del MIT en ingeniería eléctrica e informática, afiliado a CSAIL e investigador principal del DMD. estructura. “Este avance no sólo reduce significativamente el tiempo de cálculo sino que también conserva, si no supera, la calidad del contenido visual generado. Teóricamente, el enfoque combina los principios de las redes generativas adversarias (GAN) con los de los modelos de difusión, logrando la generación de contenido visual en un solo paso, un marcado contraste con los cien pasos de refinamiento iterativo que requieren los modelos de difusión actuales. Potencialmente, podría ser un nuevo método de modelado generativo que sobresalga en velocidad y calidad”.
Este modelo de difusión de un solo paso podría mejorar las herramientas de diseño, permitiendo una creación de contenido más rápida y potencialmente respaldando avances en el descubrimiento de fármacos y el modelado 3D, donde la rapidez y la eficacia son clave.
Sueños de distribución
DMD inteligentemente tiene dos componentes. En primer lugar, utiliza una pérdida de regresión, que ancla el mapeo para garantizar una organización aproximada del espacio de las imágenes para hacer que el entrenamiento sea más estable. A continuación, utiliza una pérdida de coincidencia de distribución, que garantiza que la probabilidad de generar una imagen determinada con el modelo de estudiante corresponda a su frecuencia de aparición en el mundo real. Para hacer esto, aprovecha dos modelos de difusión que actúan como guías, ayudando al sistema a comprender la diferencia entre imágenes reales y generadas y haciendo posible el entrenamiento del rápido generador de un solo paso.
El sistema logra una generación más rápida al entrenar una nueva red para minimizar la divergencia de distribución entre sus imágenes generadas y las del conjunto de datos de entrenamiento utilizado por los modelos de difusión tradicionales. "Nuestra idea clave es aproximar los gradientes que guían la mejora del nuevo modelo utilizando dos modelos de difusión", afirma Yin. "De esta manera, destilamos el conocimiento del modelo original, más complejo, en uno más simple y rápido, evitando al mismo tiempo los notorios problemas de inestabilidad y colapso de modo en las GAN".
Yin y sus colegas utilizaron redes previamente entrenadas para el nuevo modelo de estudiante, simplificando el proceso. Al copiar y ajustar los parámetros de los modelos originales, el equipo logró una rápida convergencia del entrenamiento del nuevo modelo, que es capaz de producir imágenes de alta calidad con la misma base arquitectónica. "Esto permite combinarlo con otras optimizaciones del sistema basadas en la arquitectura original para acelerar aún más el proceso de creación", añade Yin.
Cuando se puso a prueba con los métodos habituales, utilizando una amplia gama de puntos de referencia, DMD mostró un rendimiento constante. En el punto de referencia popular de generar imágenes basadas en clases específicas en ImageNet, DMD es la primera técnica de difusión de un solo paso que produce imágenes prácticamente a la par con las de los modelos originales, más complejos, con una distancia de inicio de Fréchet muy cercana ( FID) puntuación de sólo 0,3, lo cual es impresionante, ya que FID se trata de juzgar la calidad y diversidad de las imágenes generadas. Además, DMD destaca en la generación de texto a imagen a escala industrial y logra un rendimiento de generación de última generación en un solo paso. Todavía hay una ligera brecha de calidad al abordar aplicaciones de texto a imagen más complicadas, lo que sugiere que hay un poco de margen de mejora en el futuro.
Además, el rendimiento de las imágenes generadas por DMD está intrínsecamente vinculado a las capacidades del modelo docente utilizado durante el proceso de destilación. En el formulario actual, que utiliza Stable Diffusion v1.5 como modelo de profesor, el estudiante hereda limitaciones como la representación detallada de texto y caras pequeñas, lo que sugiere que las imágenes generadas por DMD podrían mejorarse aún más con modelos de profesor más avanzados.
"Disminuir el número de iteraciones ha sido el Santo Grial en los modelos de difusión desde sus inicios", dice Fredo Durand, profesor de ingeniería eléctrica e informática del MIT, investigador principal de CSAIL y autor principal del artículo. "Estamos muy entusiasmados de poder finalmente permitir la generación de imágenes en un solo paso, lo que reducirá drásticamente los costos de computación y acelerará el proceso".
"Por fin, un artículo que combina con éxito la versatilidad y la alta calidad visual de los modelos de difusión con el rendimiento en tiempo real de las GAN", afirma Alexei Efros, profesor de ingeniería eléctrica e informática de la Universidad de California en Berkeley, que no participó. en este estudio. "Espero que este trabajo abra posibilidades fantásticas para la edición visual de alta calidad en tiempo real".
Los compañeros autores de Yin y Durand son el profesor de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal de CSAIL William T. Freeman, así como los científicos investigadores de Adobe Michaël Gharbi SM ´15, PhD ´18; Richard Zhang; Eli Shechtman; y el parque Taesung. Su trabajo fue apoyado, en parte, por subvenciones de la Fundación Nacional de Ciencias de EE. UU. (incluida una para el Instituto de Inteligencia Artificial e Interacciones Fundamentales), la Agencia de Ciencia y Tecnología de Defensa de Singapur y financiación del Instituto de Ciencia y Tecnología de Gwangju y Amazon. Su trabajo se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones en junio.

MIT
Promover la investigación, las innovaciones, la enseñanza y los eventos y las personas de interés periodístico del MIT a la comunidad del campus, los medios de comunicación y el público en general, Comunicar anuncios del Instituto, Publicar noticias de la comunidad para profesores, estudiantes, personal y ex alumnos del MIT. Proporcionar servicios de medios a los miembros de la comunidad, incluido el asesoramiento sobre cómo trabajar con periodistas, Responder a consultas de los medios y solicitudes de entrevistas...