Transformador híbrido y convolución para la compresión de imágenes
Autores: Nan, Ruili; Sun, Guiling; Zheng, Bowen; Zhang, Pengchen
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Transformador híbrido y convolución para la compresión de imágenes
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformador
Convolución
Reconstrucción
Muestreo comprimido
Redes de despliegue profundo
Muestreo disperso
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
En los últimos años, las redes desplegadas profundas (DUNs) han recibido una amplia atención en el campo de la reconstrucción de muestreo comprimido (CS) debido a su buena interpretabilidad y fuertes capacidades de mapeo. Sin embargo, las DUNs existentes a menudo mejoran el efecto de reconstrucción a expensas de un gran número de parámetros, y existe el problema de la pérdida de información en la transmisión de características a larga distancia. Basándonos en los problemas mencionados, proponemos una arquitectura de red desplegada que combina Transformer y convolución de núcleo grande para lograr el muestreo disperso y la reconstrucción de imágenes naturales, es decir, una red de reconstrucción basada en Transformer y convolución (TCR-Net). El marco Transformer tiene la capacidad inherente de capturar el contexto global a través de un mecanismo de autoatención, lo que puede resolver eficazmente el desafío de la dependencia a larga distancia en las características. TCR-Net es una arquitectura de dos etapas de extremo a extremo. Primero, se utiliza un codificador preentrenado basado en datos para completar la representación dispersa y la extracción básica de características de la información de la imagen. En segundo lugar, se introduce un nuevo mecanismo de atención para reemplazar el mecanismo de autoatención en Transformer, y se diseña un módulo híbrido de Transformer y convolución basado en optimización inspirada. Su proceso iterativo conduce al marco desplegado, que aproxima la etapa de imagen original paso a paso. Los resultados experimentales muestran que TCR-Net supera a los métodos de CS de vanguardia existentes mientras mantiene una velocidad computacional rápida. Específicamente, cuando la proporción de CS es 0.10, el PSNR promedio en el conjunto de pruebas utilizado en este artículo se mejora en al menos un 0.8%, el SSIM promedio se mejora en al menos un 1.5%, y la velocidad de procesamiento es superior a 70FPS. Estos resultados cuantitativos muestran que nuestro método tiene una alta eficiencia computacional mientras garantiza una restauración de imágenes de alta calidad.
Descripción
En los últimos años, las redes desplegadas profundas (DUNs) han recibido una amplia atención en el campo de la reconstrucción de muestreo comprimido (CS) debido a su buena interpretabilidad y fuertes capacidades de mapeo. Sin embargo, las DUNs existentes a menudo mejoran el efecto de reconstrucción a expensas de un gran número de parámetros, y existe el problema de la pérdida de información en la transmisión de características a larga distancia. Basándonos en los problemas mencionados, proponemos una arquitectura de red desplegada que combina Transformer y convolución de núcleo grande para lograr el muestreo disperso y la reconstrucción de imágenes naturales, es decir, una red de reconstrucción basada en Transformer y convolución (TCR-Net). El marco Transformer tiene la capacidad inherente de capturar el contexto global a través de un mecanismo de autoatención, lo que puede resolver eficazmente el desafío de la dependencia a larga distancia en las características. TCR-Net es una arquitectura de dos etapas de extremo a extremo. Primero, se utiliza un codificador preentrenado basado en datos para completar la representación dispersa y la extracción básica de características de la información de la imagen. En segundo lugar, se introduce un nuevo mecanismo de atención para reemplazar el mecanismo de autoatención en Transformer, y se diseña un módulo híbrido de Transformer y convolución basado en optimización inspirada. Su proceso iterativo conduce al marco desplegado, que aproxima la etapa de imagen original paso a paso. Los resultados experimentales muestran que TCR-Net supera a los métodos de CS de vanguardia existentes mientras mantiene una velocidad computacional rápida. Específicamente, cuando la proporción de CS es 0.10, el PSNR promedio en el conjunto de pruebas utilizado en este artículo se mejora en al menos un 0.8%, el SSIM promedio se mejora en al menos un 1.5%, y la velocidad de procesamiento es superior a 70FPS. Estos resultados cuantitativos muestran que nuestro método tiene una alta eficiencia computacional mientras garantiza una restauración de imágenes de alta calidad.