Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos

Autores: Tan, Kai; Luo, Wang; Chen, Yaqing; He, Xin; Zhang, Yumei; Li, Mengqiang; Wang, Haoyu

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico

2026

Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación de la calidad de imagen

Marco de visión-lenguaje de grano fino

Arquitectura CLIP

Estrategia de ajuste de indicaciones

Puntos de referencia de IQA

Degradaciones regionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La evaluación de la calidad de imagen ciega (BIQA) sin imágenes de referencia sigue siendo un desafío significativo debido a que la calidad perceptual está determinada en gran medida por distorsiones sutiles y localizadas espacialmente. Sin embargo, los métodos existentes basados en el preentrenamiento contrastivo de lenguaje e imagen (CLIP) exhiben una sensibilidad limitada a degradaciones finas como el desenfoque local, el ruido, los artefactos de compresión y las inconsistencias de exposición, ya que están optimizados para la alineación semántica global. Para superar estas limitaciones, proponemos un marco de visión-lenguaje de grano fino que mejora la representación consciente de las distorsiones al considerar tanto dominios visuales de grano fino como textuales detallados. Específicamente, nuestro método emplea una arquitectura CLIP de grano fino junto con descripciones textuales explícitas para permitir la identificación efectiva de degradaciones regionales sutiles. Además, se utiliza una estrategia de ajuste de parámetros eficiente para facilitar el aprendizaje de representaciones de indicaciones adaptativas a la tarea, adaptadas a la evaluación de calidad de imagen (IQA). Experimentos extensivos en tres benchmarks de IQA ampliamente utilizados muestran que el método propuesto logra una fuerte consistencia con los juicios subjetivos humanos: nuestro FGCLIP-IQA sin entrenamiento alcanza un SROCC máximo de 0.732 en KonIQ-10k, superando la línea base de CLIP-IQA, mientras que el FGCLIP-IQA+ ajustado por indicaciones logra un SROCC máximo de 0.909 en KonIQ-10k con solo un pequeño número de parámetros aprendibles y exhibe robustas capacidades de generalización entre conjuntos de datos. Estos resultados demuestran que la alineación de visión-lenguaje de grano fino muestra un gran potencial para el desarrollo futuro y proporciona una solución eficiente y precisa para la tarea de BIQA.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro