Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención

Autores: Fusa, Haruno; Lee, Chonho; Onishi, Sakuei; Fusa, Kanshin; Shiina, Hiromitsu

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Evaluación Basada en Plantillas de la Difusión Estable a través de Mapas de Atención

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Alineación de texto-imagen

Marco de evaluación

Mapas de atención

Modelos de visión-lenguaje

Habilidades de generación

Modelos SD

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los modelos de texto a imagen, como Stable Diffusion (SD), requieren métodos integrales, detallados y de alta precisión para evaluar la alineación texto-imagen. Un método anterior, la métrica de alineación texto-imagen (TIAM), emplea un enfoque basado en plantillas para una evaluación detallada y de alta precisión; sin embargo, está restringido a objetos y colores, lo que limita su exhaustividad. Este estudio amplía el TIAM al incorporar mapas de atención y modelos de visión-lenguaje para ofrecer un marco de evaluación detallado y de alta precisión que va más allá de colores y objetos para incluir atributos, acciones y posiciones. En nuestros experimentos, analizamos las puntuaciones de evaluación de las imágenes generadas por el método propuesto y las comparamos con los juicios humanos. Los resultados demuestran que el método propuesto supera a los métodos existentes, exhibiendo una correlación más fuerte con los juicios humanos (r = 0.853, p<10-48). Además, aplicamos el método propuesto para evaluar las capacidades de generación de tres modelos de SD (es decir, SD1.4, SD2 y SD3.5). Cada experimento utilizó más de 900 imágenes, totalizando 9858 imágenes en todos los experimentos para asegurar la significancia estadística. Los resultados indican que SD3.5 exhibe una expresividad superior en comparación con SD1.4 y SD2. Sin embargo, para tareas más complejas como la generación de múltiples atributos o la generación de múltiples acciones, las limitaciones en la alineación texto-imagen siguen siendo evidentes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro