Fursformer: red de segmentación semántica para imágenes de teledetección con características heterogéneas fusionadas
Autores: Zhang, Zehua; Liu, Bailin; Li, Yani
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Fursformer: red de segmentación semántica para imágenes de teledetección con características heterogéneas fusionadas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Segmentación semántica
Imágenes de teledetección
Arquitectura Transformer
Arquitectura CNN
Comprensión contextual global
Módulo de información de fusión jerárquica de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 40
Citaciones: Sin citaciones
La segmentación semántica de imágenes de teledetección plantea un desafío formidable dentro de este dominio. Nuestra investigación comienza con un estudio piloto destinado a examinar las ventajas y desventajas de emplear una arquitectura Transformer y una arquitectura CNN en imágenes de teledetección (RSI). Nuestro objetivo es corroborar la indispensable necesidad de información local y global para el análisis de RSI. En este artículo de investigación, aprovechamos el potencial del modelo Transformer para establecer una comprensión contextual global al mismo tiempo que incorporamos un módulo adicional de convolución para la percepción localizada. Sin embargo, una fusión directa de estas fuentes de información heterogéneas a menudo produce resultados insatisfactorios. Para abordar esta limitación, proponemos un innovador módulo de información de fusión jerárquica que este modelo puede fusionar características de Transformer y CNN utilizando un enfoque de conjunto, mejorando así la compatibilidad de la información. Nuestro modelo propuesto, llamado FURSformer, amalgama las fortalezas de la arquitectura Transformer y CNN. Los resultados experimentales demuestran claramente la efectividad de este enfoque. Notablemente, nuestro modelo logró una precisión sobresaliente del 90.78% de precisión media en el conjunto de datos DLRSD.
Descripción
La segmentación semántica de imágenes de teledetección plantea un desafío formidable dentro de este dominio. Nuestra investigación comienza con un estudio piloto destinado a examinar las ventajas y desventajas de emplear una arquitectura Transformer y una arquitectura CNN en imágenes de teledetección (RSI). Nuestro objetivo es corroborar la indispensable necesidad de información local y global para el análisis de RSI. En este artículo de investigación, aprovechamos el potencial del modelo Transformer para establecer una comprensión contextual global al mismo tiempo que incorporamos un módulo adicional de convolución para la percepción localizada. Sin embargo, una fusión directa de estas fuentes de información heterogéneas a menudo produce resultados insatisfactorios. Para abordar esta limitación, proponemos un innovador módulo de información de fusión jerárquica que este modelo puede fusionar características de Transformer y CNN utilizando un enfoque de conjunto, mejorando así la compatibilidad de la información. Nuestro modelo propuesto, llamado FURSformer, amalgama las fortalezas de la arquitectura Transformer y CNN. Los resultados experimentales demuestran claramente la efectividad de este enfoque. Notablemente, nuestro modelo logró una precisión sobresaliente del 90.78% de precisión media en el conjunto de datos DLRSD.