Ingeniería de Prompts Jerárquica y Adaptación de Bajo Rango Diferenciada por Tareas para la Evaluación de la Calidad de Imágenes Generadas por Inteligencia Artificial
Autores: Gao, Minjuan; Zhang, Qiaorong; Song, Chenye; Zhang, Xuande; Li, Yankang
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Ingeniería de Prompts Jerárquica y Adaptación de Bajo Rango Diferenciada por Tareas para la Evaluación de la Calidad de Imágenes Generadas por Inteligencia Artificial
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Inteligencia artificial
Contenido
Evaluación de la calidad de imagen
Marco multimodal
Semántica de indicaciones
Adaptación de bajo rango
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Evaluar la calidad de las imágenes generadas por inteligencia artificial (AIGC) sigue siendo un desafío crítico, ya que los métodos convencionales de evaluación de calidad de imagen (IQA) a menudo no logran capturar la consistencia semántica entre las imágenes generadas y sus indicaciones textuales. Este estudio tiene como objetivo establecer un marco multimodal interpretable y eficiente para evaluar la calidad de las imágenes AIGC. La investigación aborda tres preguntas científicas clave: cómo aprovechar la semántica estructurada de las indicaciones para evaluaciones más interpretables, cómo permitir una adaptación precisa y eficiente en parámetros, y cómo lograr un manejo unificado de subtareas perceptuales y semánticas. Con este fin, proponemos el marco de Adaptación de Bajo Rango Mejorada por Indicación (PELA), que integra la Ingeniería de Indicación Jerárquica y la Adaptación de Bajo Rango dentro de una estructura basada en CLIP. Las indicaciones jerárquicas codifican semánticas de múltiples niveles para una evaluación detallada, mientras que la adaptación de bajo rango permite una optimización ligera y específica para la tarea. Los experimentos realizados en los conjuntos de datos AGIQA-1K, AGIQA-3K y AIGCIQA-2023 demuestran que PELA logra una correlación superior con los juicios perceptuales humanos y establece nuevos resultados de vanguardia en múltiples métricas. Los hallazgos confirman que combinar la semántica estructurada de las indicaciones con una adaptación eficiente ofrece un paradigma compacto, interpretable y escalable para la evaluación de calidad de imagen multimodal.
Descripción
Evaluar la calidad de las imágenes generadas por inteligencia artificial (AIGC) sigue siendo un desafío crítico, ya que los métodos convencionales de evaluación de calidad de imagen (IQA) a menudo no logran capturar la consistencia semántica entre las imágenes generadas y sus indicaciones textuales. Este estudio tiene como objetivo establecer un marco multimodal interpretable y eficiente para evaluar la calidad de las imágenes AIGC. La investigación aborda tres preguntas científicas clave: cómo aprovechar la semántica estructurada de las indicaciones para evaluaciones más interpretables, cómo permitir una adaptación precisa y eficiente en parámetros, y cómo lograr un manejo unificado de subtareas perceptuales y semánticas. Con este fin, proponemos el marco de Adaptación de Bajo Rango Mejorada por Indicación (PELA), que integra la Ingeniería de Indicación Jerárquica y la Adaptación de Bajo Rango dentro de una estructura basada en CLIP. Las indicaciones jerárquicas codifican semánticas de múltiples niveles para una evaluación detallada, mientras que la adaptación de bajo rango permite una optimización ligera y específica para la tarea. Los experimentos realizados en los conjuntos de datos AGIQA-1K, AGIQA-3K y AIGCIQA-2023 demuestran que PELA logra una correlación superior con los juicios perceptuales humanos y establece nuevos resultados de vanguardia en múltiples métricas. Los hallazgos confirman que combinar la semántica estructurada de las indicaciones con una adaptación eficiente ofrece un paradigma compacto, interpretable y escalable para la evaluación de calidad de imagen multimodal.