Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos
Autores: Tan, Kai; Luo, Wang; Chen, Yaqing; He, Xin; Zhang, Yumei; Li, Mengqiang; Wang, Haoyu
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Evaluación de la calidad de imagen
Marco de visión-lenguaje de grano fino
Arquitectura CLIP
Estrategia de ajuste de indicaciones
Puntos de referencia de IQA
Degradaciones regionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La evaluación de la calidad de imagen ciega (BIQA) sin imágenes de referencia sigue siendo un desafío significativo debido a que la calidad perceptual está determinada en gran medida por distorsiones sutiles y localizadas espacialmente. Sin embargo, los métodos existentes basados en el preentrenamiento contrastivo de lenguaje e imagen (CLIP) exhiben una sensibilidad limitada a degradaciones finas como el desenfoque local, el ruido, los artefactos de compresión y las inconsistencias de exposición, ya que están optimizados para la alineación semántica global. Para superar estas limitaciones, proponemos un marco de visión-lenguaje de grano fino que mejora la representación consciente de las distorsiones al considerar tanto dominios visuales de grano fino como textuales detallados. Específicamente, nuestro método emplea una arquitectura CLIP de grano fino junto con descripciones textuales explícitas para permitir la identificación efectiva de degradaciones regionales sutiles. Además, se utiliza una estrategia de ajuste de parámetros eficiente para facilitar el aprendizaje de representaciones de indicaciones adaptativas a la tarea, adaptadas a la evaluación de calidad de imagen (IQA). Experimentos extensivos en tres benchmarks de IQA ampliamente utilizados muestran que el método propuesto logra una fuerte consistencia con los juicios subjetivos humanos: nuestro FGCLIP-IQA sin entrenamiento alcanza un SROCC máximo de 0.732 en KonIQ-10k, superando la línea base de CLIP-IQA, mientras que el FGCLIP-IQA+ ajustado por indicaciones logra un SROCC máximo de 0.909 en KonIQ-10k con solo un pequeño número de parámetros aprendibles y exhibe robustas capacidades de generalización entre conjuntos de datos. Estos resultados demuestran que la alineación de visión-lenguaje de grano fino muestra un gran potencial para el desarrollo futuro y proporciona una solución eficiente y precisa para la tarea de BIQA.
Descripción
La evaluación de la calidad de imagen ciega (BIQA) sin imágenes de referencia sigue siendo un desafío significativo debido a que la calidad perceptual está determinada en gran medida por distorsiones sutiles y localizadas espacialmente. Sin embargo, los métodos existentes basados en el preentrenamiento contrastivo de lenguaje e imagen (CLIP) exhiben una sensibilidad limitada a degradaciones finas como el desenfoque local, el ruido, los artefactos de compresión y las inconsistencias de exposición, ya que están optimizados para la alineación semántica global. Para superar estas limitaciones, proponemos un marco de visión-lenguaje de grano fino que mejora la representación consciente de las distorsiones al considerar tanto dominios visuales de grano fino como textuales detallados. Específicamente, nuestro método emplea una arquitectura CLIP de grano fino junto con descripciones textuales explícitas para permitir la identificación efectiva de degradaciones regionales sutiles. Además, se utiliza una estrategia de ajuste de parámetros eficiente para facilitar el aprendizaje de representaciones de indicaciones adaptativas a la tarea, adaptadas a la evaluación de calidad de imagen (IQA). Experimentos extensivos en tres benchmarks de IQA ampliamente utilizados muestran que el método propuesto logra una fuerte consistencia con los juicios subjetivos humanos: nuestro FGCLIP-IQA sin entrenamiento alcanza un SROCC máximo de 0.732 en KonIQ-10k, superando la línea base de CLIP-IQA, mientras que el FGCLIP-IQA+ ajustado por indicaciones logra un SROCC máximo de 0.909 en KonIQ-10k con solo un pequeño número de parámetros aprendibles y exhibe robustas capacidades de generalización entre conjuntos de datos. Estos resultados demuestran que la alineación de visión-lenguaje de grano fino muestra un gran potencial para el desarrollo futuro y proporciona una solución eficiente y precisa para la tarea de BIQA.