logo móvil
Contáctanos

Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención

Autores: Fusa, Haruno; Lee, Chonho; Onishi, Sakuei; Fusa, Kanshin; Shiina, Hiromitsu

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Alineación de texto-imagen
Marco de evaluación
Mapas de atención
Modelos de visión-lenguaje
Habilidades de generación
Modelos SD

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los modelos de texto a imagen, como Stable Diffusion (SD), requieren métodos integrales, detallados y de alta precisión para evaluar la alineación texto-imagen. Un método anterior, la métrica de alineación texto-imagen (TIAM), emplea un enfoque basado en plantillas para una evaluación detallada y de alta precisión; sin embargo, está restringido a objetos y colores, lo que limita su exhaustividad. Este estudio amplía el TIAM al incorporar mapas de atención y modelos de visión-lenguaje para ofrecer un marco de evaluación detallado y de alta precisión que va más allá de colores y objetos para incluir atributos, acciones y posiciones. En nuestros experimentos, analizamos las puntuaciones de evaluación de las imágenes generadas por el método propuesto y las comparamos con los juicios humanos. Los resultados demuestran que el método propuesto supera a los métodos existentes, exhibiendo una correlación más fuerte con los juicios humanos (r = 0.853, p<10-48). Además, aplicamos el método propuesto para evaluar las capacidades de generación de tres modelos de SD (es decir, SD1.4, SD2 y SD3.5). Cada experimento utilizó más de 900 imágenes, totalizando 9858 imágenes en todos los experimentos para asegurar la significancia estadística. Los resultados indican que SD3.5 exhibe una expresividad superior en comparación con SD1.4 y SD2. Sin embargo, para tareas más complejas como la generación de múltiples atributos o la generación de múltiples acciones, las limitaciones en la alineación texto-imagen siguen siendo evidentes.

Otros recursos que podrían interesarte

Temas Virtualpro