Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención
Autores: Fusa, Haruno; Lee, Chonho; Onishi, Sakuei; Fusa, Kanshin; Shiina, Hiromitsu
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Alineación de texto-imagen
Marco de evaluación
Mapas de atención
Modelos de visión-lenguaje
Habilidades de generación
Modelos SD
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de texto a imagen, como Stable Diffusion (SD), requieren métodos integrales, detallados y de alta precisión para evaluar la alineación texto-imagen. Un método anterior, la métrica de alineación texto-imagen (TIAM), emplea un enfoque basado en plantillas para una evaluación detallada y de alta precisión; sin embargo, está restringido a objetos y colores, lo que limita su exhaustividad. Este estudio amplía el TIAM al incorporar mapas de atención y modelos de visión-lenguaje para ofrecer un marco de evaluación detallado y de alta precisión que va más allá de colores y objetos para incluir atributos, acciones y posiciones. En nuestros experimentos, analizamos las puntuaciones de evaluación de las imágenes generadas por el método propuesto y las comparamos con los juicios humanos. Los resultados demuestran que el método propuesto supera a los métodos existentes, exhibiendo una correlación más fuerte con los juicios humanos (r = 0.853, p<10-48). Además, aplicamos el método propuesto para evaluar las capacidades de generación de tres modelos de SD (es decir, SD1.4, SD2 y SD3.5). Cada experimento utilizó más de 900 imágenes, totalizando 9858 imágenes en todos los experimentos para asegurar la significancia estadística. Los resultados indican que SD3.5 exhibe una expresividad superior en comparación con SD1.4 y SD2. Sin embargo, para tareas más complejas como la generación de múltiples atributos o la generación de múltiples acciones, las limitaciones en la alineación texto-imagen siguen siendo evidentes.
Descripción
Los modelos de texto a imagen, como Stable Diffusion (SD), requieren métodos integrales, detallados y de alta precisión para evaluar la alineación texto-imagen. Un método anterior, la métrica de alineación texto-imagen (TIAM), emplea un enfoque basado en plantillas para una evaluación detallada y de alta precisión; sin embargo, está restringido a objetos y colores, lo que limita su exhaustividad. Este estudio amplía el TIAM al incorporar mapas de atención y modelos de visión-lenguaje para ofrecer un marco de evaluación detallado y de alta precisión que va más allá de colores y objetos para incluir atributos, acciones y posiciones. En nuestros experimentos, analizamos las puntuaciones de evaluación de las imágenes generadas por el método propuesto y las comparamos con los juicios humanos. Los resultados demuestran que el método propuesto supera a los métodos existentes, exhibiendo una correlación más fuerte con los juicios humanos (r = 0.853, p<10-48). Además, aplicamos el método propuesto para evaluar las capacidades de generación de tres modelos de SD (es decir, SD1.4, SD2 y SD3.5). Cada experimento utilizó más de 900 imágenes, totalizando 9858 imágenes en todos los experimentos para asegurar la significancia estadística. Los resultados indican que SD3.5 exhibe una expresividad superior en comparación con SD1.4 y SD2. Sin embargo, para tareas más complejas como la generación de múltiples atributos o la generación de múltiples acciones, las limitaciones en la alineación texto-imagen siguen siendo evidentes.