logo móvil
Contáctanos

Estrategias de mejora del modelo de texto a imagen personalizado: preprocesamiento SOD e integración de características locales de CNN

Autores: Kim, Mujung; Yoo, Jisang; Kwon, Soonchul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Estrategias de mejora del modelo de texto a imagen personalizado: preprocesamiento SOD e integración de características locales de CNN


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avances
Modelos de texto a imagen
Conjuntos de datos personalizados
Información detallada
Información visual
Basado en pirámides de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 56

Citaciones: Sin citaciones


Descripción
Los avances recientes en los modelos de texto a imagen han sido sustanciales, generando nuevas imágenes basadas en conjuntos de datos personalizados. Sin embargo, incluso dentro de una sola categoría, como los muebles, donde las estructuras varían y los patrones no son uniformes, la capacidad de las imágenes generadas para preservar la información detallada de las imágenes de entrada sigue siendo insatisfactoria. Este estudio presenta un método novedoso para mejorar la calidad de los resultados producidos por los modelos de texto-imagen. El método utiliza un preprocesamiento de máscara con un modelo de detección de objetos salientes basado en pirámide de imágenes, incorpora información visual en las indicaciones de entrada utilizando incrustaciones de imágenes conceptuales y un extractor de características locales de CNN, e incluye un proceso de filtrado basado en medidas de similitud. Al utilizar este enfoque, observamos mejoras tanto visuales como cuantitativas en la alineación de texto CLIP y en las métricas DINO, lo que sugiere que las imágenes generadas siguen más de cerca las indicaciones de texto y reflejan con mayor precisión los detalles de la imagen de entrada. La importancia de esta investigación radica en abordar uno de los desafíos predominantes en el campo de la generación de imágenes personalizadas: mejorar la capacidad de representar de manera consistente y precisa las características detalladas de las imágenes de entrada en la salida. Este método permite visualizaciones más realistas a través de indicaciones de texto mejoradas con información visual, características locales adicionales y eliminación de áreas innecesarias mediante una máscara de SOD; también puede ser beneficioso en campos que priorizan la precisión de los datos visuales.

Otros recursos que podrían interesarte

Temas Virtualpro