Un modelo de relleno de imágenes atencional agregado de ventana cruzada basado en Transformer
Autores: Chen, Mingju; Liu, Tingting; Xiong, Xingzhong; Duan, Zhengxu; Cui, Anle
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un modelo de relleno de imágenes atencional agregado de ventana cruzada basado en Transformer
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Red de transformadores
Agregación de ventanas del transformador
Redes convolucionales
Extracción de características
Red generativa adversaria
Dependencias a largo plazo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 56
Citaciones: Sin citaciones
Para superar la falla de las redes convolucionales, que pueden ser demasiado suaves, borrosas o discontinuas, se propone un novedoso modelo de red transformadora con atención agregada entre ventanas. Nuestra red en su conjunto se construye como un modelo de red generativa adversaria y, mediante la incorporación del módulo Transformer de Agregación de Ventanas (WAT), mejoramos la agregación de información entre ventanas sin aumentar la complejidad computacional y obtenemos de manera efectiva las dependencias a largo plazo de la imagen para resolver el problema de que las operaciones convolucionales están limitadas por la extracción de características locales. Primero, el codificador extrae las características multiescala de la imagen con núcleos convolucionales de diferentes escalas; segundo, los mapas de características de diferentes escalas se introducen en un módulo WAT para realizar la agregación entre la información de características y, finalmente, estas características se reconstruyen por el decodificador, y luego, la imagen generada se introduce en el discriminador global, donde se completa la discriminación entre imágenes reales y falsas. Se verifica experimentalmente que nuestra red de atención de ventanas Transformer diseñada es capaz de hacer que la textura estructurada de las imágenes restauradas sea más rica y natural al realizar la tarea de restauración de imágenes grandes rotas o estructuralmente complejas.
Descripción
Para superar la falla de las redes convolucionales, que pueden ser demasiado suaves, borrosas o discontinuas, se propone un novedoso modelo de red transformadora con atención agregada entre ventanas. Nuestra red en su conjunto se construye como un modelo de red generativa adversaria y, mediante la incorporación del módulo Transformer de Agregación de Ventanas (WAT), mejoramos la agregación de información entre ventanas sin aumentar la complejidad computacional y obtenemos de manera efectiva las dependencias a largo plazo de la imagen para resolver el problema de que las operaciones convolucionales están limitadas por la extracción de características locales. Primero, el codificador extrae las características multiescala de la imagen con núcleos convolucionales de diferentes escalas; segundo, los mapas de características de diferentes escalas se introducen en un módulo WAT para realizar la agregación entre la información de características y, finalmente, estas características se reconstruyen por el decodificador, y luego, la imagen generada se introduce en el discriminador global, donde se completa la discriminación entre imágenes reales y falsas. Se verifica experimentalmente que nuestra red de atención de ventanas Transformer diseñada es capaz de hacer que la textura estructurada de las imágenes restauradas sea más rica y natural al realizar la tarea de restauración de imágenes grandes rotas o estructuralmente complejas.