logo móvil
Contáctanos

Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos

Autores: Tan, Kai; Luo, Wang; Chen, Yaqing; He, Xin; Zhang, Yumei; Li, Mengqiang; Wang, Haoyu

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

Método de Visión-Lenguaje de Grano Fino con Ajuste de Prompts para la Evaluación de Calidad de Imagen para Ciegos


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Evaluación de la calidad de imagen
Marco de visión-lenguaje de grano fino
Arquitectura CLIP
Estrategia de ajuste de indicaciones
Puntos de referencia de IQA
Degradaciones regionales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La evaluación de la calidad de imagen ciega (BIQA) sin imágenes de referencia sigue siendo un desafío significativo debido a que la calidad perceptual está determinada en gran medida por distorsiones sutiles y localizadas espacialmente. Sin embargo, los métodos existentes basados en el preentrenamiento contrastivo de lenguaje e imagen (CLIP) exhiben una sensibilidad limitada a degradaciones finas como el desenfoque local, el ruido, los artefactos de compresión y las inconsistencias de exposición, ya que están optimizados para la alineación semántica global. Para superar estas limitaciones, proponemos un marco de visión-lenguaje de grano fino que mejora la representación consciente de las distorsiones al considerar tanto dominios visuales de grano fino como textuales detallados. Específicamente, nuestro método emplea una arquitectura CLIP de grano fino junto con descripciones textuales explícitas para permitir la identificación efectiva de degradaciones regionales sutiles. Además, se utiliza una estrategia de ajuste de parámetros eficiente para facilitar el aprendizaje de representaciones de indicaciones adaptativas a la tarea, adaptadas a la evaluación de calidad de imagen (IQA). Experimentos extensivos en tres benchmarks de IQA ampliamente utilizados muestran que el método propuesto logra una fuerte consistencia con los juicios subjetivos humanos: nuestro FGCLIP-IQA sin entrenamiento alcanza un SROCC máximo de 0.732 en KonIQ-10k, superando la línea base de CLIP-IQA, mientras que el FGCLIP-IQA+ ajustado por indicaciones logra un SROCC máximo de 0.909 en KonIQ-10k con solo un pequeño número de parámetros aprendibles y exhibe robustas capacidades de generalización entre conjuntos de datos. Estos resultados demuestran que la alineación de visión-lenguaje de grano fino muestra un gran potencial para el desarrollo futuro y proporciona una solución eficiente y precisa para la tarea de BIQA.

Otros recursos que podrían interesarte

Temas Virtualpro