Evaluación de calidad de imágenes de campo de luz basada en atención adaptativa en ViT
Autores: Du, Yifan; Lang, Wei; Hu, Xinwen; Yu, Li; Zhang, Hua; Zhang, Lingjun; Wu, Yifan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Evaluación de calidad de imágenes de campo de luz basada en atención adaptativa en ViT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Imágenes de campo de luz
Evaluación de calidad
Reconstrucción 3D
Modelo AViT-LFIQA
Secuencia de imágenes de sub-apertura de múltiples vistas
Capa de atención adaptativa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
Las imágenes de campo de luz pueden registrar múltiple información sobre los rayos de luz en una escena y proporcionar múltiples vistas a partir de una sola imagen, ofreciendo una nueva fuente de datos para la reconstrucción 3D. Sin embargo, garantizar la calidad de las imágenes de campo de luz en sí mismas es un desafío, y las entradas de imágenes distorsionadas pueden llevar a resultados de reconstrucción pobres. La evaluación precisa de la calidad de las imágenes de campo de luz puede prejuzgar la calidad de las imágenes de campo de luz utilizadas como entrada para la reconstrucción 3D, proporcionando una referencia para los resultados de la reconstrucción antes del trabajo de reconstrucción, mejorando significativamente la eficiencia de la reconstrucción 3D basada en imágenes de campo de luz. En este documento, proponemos un modelo de evaluación de calidad de imágenes de campo de luz basado en Transformador de Visión Adaptativa (AViT-LFIQA). El modelo adopta un método de entrada de secuencia de imágenes de subapertura multi-vista, reduciendo en gran medida el número de imágenes de entrada mientras retiene la mayor cantidad de información posible de la imagen original de campo de luz, aliviando la presión de entrenamiento en la red neuronal. Además, diseñamos una capa de atención adaptable aprendible basada en ViT, que aborda la falta de sesgo inductivo en ViT mediante el uso de enmascaramiento diagonal adaptable y una estrategia de coeficiente de temperatura aprendible, haciendo que el modelo sea más adecuado para el entrenamiento en pequeños conjuntos de datos de imágenes de campo de luz. Los resultados experimentales demuestran que el modelo propuesto es efectivo para varios tipos de distorsiones y muestra un rendimiento superior en la evaluación de calidad de imágenes de campo de luz.
Descripción
Las imágenes de campo de luz pueden registrar múltiple información sobre los rayos de luz en una escena y proporcionar múltiples vistas a partir de una sola imagen, ofreciendo una nueva fuente de datos para la reconstrucción 3D. Sin embargo, garantizar la calidad de las imágenes de campo de luz en sí mismas es un desafío, y las entradas de imágenes distorsionadas pueden llevar a resultados de reconstrucción pobres. La evaluación precisa de la calidad de las imágenes de campo de luz puede prejuzgar la calidad de las imágenes de campo de luz utilizadas como entrada para la reconstrucción 3D, proporcionando una referencia para los resultados de la reconstrucción antes del trabajo de reconstrucción, mejorando significativamente la eficiencia de la reconstrucción 3D basada en imágenes de campo de luz. En este documento, proponemos un modelo de evaluación de calidad de imágenes de campo de luz basado en Transformador de Visión Adaptativa (AViT-LFIQA). El modelo adopta un método de entrada de secuencia de imágenes de subapertura multi-vista, reduciendo en gran medida el número de imágenes de entrada mientras retiene la mayor cantidad de información posible de la imagen original de campo de luz, aliviando la presión de entrenamiento en la red neuronal. Además, diseñamos una capa de atención adaptable aprendible basada en ViT, que aborda la falta de sesgo inductivo en ViT mediante el uso de enmascaramiento diagonal adaptable y una estrategia de coeficiente de temperatura aprendible, haciendo que el modelo sea más adecuado para el entrenamiento en pequeños conjuntos de datos de imágenes de campo de luz. Los resultados experimentales demuestran que el modelo propuesto es efectivo para varios tipos de distorsiones y muestra un rendimiento superior en la evaluación de calidad de imágenes de campo de luz.