Estrategias de mejora del modelo de texto a imagen personalizado: preprocesamiento SOD e integración de características locales de CNN

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Estrategias de mejora del modelo de texto a imagen personalizado: preprocesamiento SOD e integración de características locales de CNN

Autores: Kim, Mujung; Yoo, Jisang; Kwon, Soonchul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Estrategias de mejora del modelo de texto a imagen personalizado: preprocesamiento SOD e integración de características locales de CNN

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Avances

Modelos de texto a imagen

Conjuntos de datos personalizados

Información detallada

Información visual

Basado en pirámides de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 56

Citaciones: Sin citaciones

Los avances recientes en los modelos de texto a imagen han sido sustanciales, generando nuevas imágenes basadas en conjuntos de datos personalizados. Sin embargo, incluso dentro de una sola categoría, como los muebles, donde las estructuras varían y los patrones no son uniformes, la capacidad de las imágenes generadas para preservar la información detallada de las imágenes de entrada sigue siendo insatisfactoria. Este estudio presenta un método novedoso para mejorar la calidad de los resultados producidos por los modelos de texto-imagen. El método utiliza un preprocesamiento de máscara con un modelo de detección de objetos salientes basado en pirámide de imágenes, incorpora información visual en las indicaciones de entrada utilizando incrustaciones de imágenes conceptuales y un extractor de características locales de CNN, e incluye un proceso de filtrado basado en medidas de similitud. Al utilizar este enfoque, observamos mejoras tanto visuales como cuantitativas en la alineación de texto CLIP y en las métricas DINO, lo que sugiere que las imágenes generadas siguen más de cerca las indicaciones de texto y reflejan con mayor precisión los detalles de la imagen de entrada. La importancia de esta investigación radica en abordar uno de los desafíos predominantes en el campo de la generación de imágenes personalizadas: mejorar la capacidad de representar de manera consistente y precisa las características detalladas de las imágenes de entrada en la salida. Este método permite visualizaciones más realistas a través de indicaciones de texto mejoradas con información visual, características locales adicionales y eliminación de áreas innecesarias mediante una máscara de SOD; también puede ser beneficioso en campos que priorizan la precisión de los datos visuales.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro