Red de Fusión de Atención en el Dominio Frecuencial-Espacial a Múltiples Escalas para la Extracción de Edificios en Imágenes de Teledetección
Autores: Liu, Jia; Chen, Hao; Li, Zuhe; Gu, Hang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de Fusión de Atención en el Dominio Frecuencial-Espacial a Múltiples Escalas para la Extracción de Edificios en Imágenes de Teledetección
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Extracción de imágenes de teledetección
Modelos de aprendizaje profundo
Huellas de edificios
Red de Fusión de Atención de Dominio de Frecuencia-Espacial Multi-Escala
FSAFM
AGMUM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
La extracción de edificaciones a partir de imágenes de teledetección tiene una importancia significativa en los campos de gestión de recursos terrestres, planificación urbana y evaluación de desastres. Los modelos de aprendizaje profundo codificador-decodificador son cada vez más preferidos debido a sus capacidades avanzadas de representación de características en el análisis de imágenes. Sin embargo, debido a la diversidad de estilos arquitectónicos y problemas como la oclusión de árboles, los métodos tradicionales a menudo resultan en omisiones de edificaciones y límites borrosos al extraer las huellas de los edificios. Dadas estas limitaciones, este documento propone una red de fusión de atención en el dominio espacial de múltiples escalas de vanguardia (MFSANet), que consta de dos módulos principales, llamados Módulo de Fusión de Atención en el Dominio de Frecuencia-Espacial (FSAFM) y Módulo de Ampliación de Fusión de Múltiples Escalas Guiado por Atención (AGMUM). FSAFM introduce la atención en el dominio de frecuencia y la atención espacial por separado para mejorar los mapas de características, fortaleciendo así las capacidades de detección de límites del modelo y mejorando en última instancia la precisión de la extracción de edificaciones. AGMUM primero redimensiona y concatena mapas de mejora de atención para mejorar la comprensión contextual y aplica la guía de atención para mejorar aún más la precisión de la predicción. Nuestro modelo demuestra un rendimiento superior en comparación con los métodos existentes de segmentación semántica tanto en el conjunto de datos de edificios de WHU como en el conjunto de datos de imágenes aéreas de Inria.
Descripción
La extracción de edificaciones a partir de imágenes de teledetección tiene una importancia significativa en los campos de gestión de recursos terrestres, planificación urbana y evaluación de desastres. Los modelos de aprendizaje profundo codificador-decodificador son cada vez más preferidos debido a sus capacidades avanzadas de representación de características en el análisis de imágenes. Sin embargo, debido a la diversidad de estilos arquitectónicos y problemas como la oclusión de árboles, los métodos tradicionales a menudo resultan en omisiones de edificaciones y límites borrosos al extraer las huellas de los edificios. Dadas estas limitaciones, este documento propone una red de fusión de atención en el dominio espacial de múltiples escalas de vanguardia (MFSANet), que consta de dos módulos principales, llamados Módulo de Fusión de Atención en el Dominio de Frecuencia-Espacial (FSAFM) y Módulo de Ampliación de Fusión de Múltiples Escalas Guiado por Atención (AGMUM). FSAFM introduce la atención en el dominio de frecuencia y la atención espacial por separado para mejorar los mapas de características, fortaleciendo así las capacidades de detección de límites del modelo y mejorando en última instancia la precisión de la extracción de edificaciones. AGMUM primero redimensiona y concatena mapas de mejora de atención para mejorar la comprensión contextual y aplica la guía de atención para mejorar aún más la precisión de la predicción. Nuestro modelo demuestra un rendimiento superior en comparación con los métodos existentes de segmentación semántica tanto en el conjunto de datos de edificios de WHU como en el conjunto de datos de imágenes aéreas de Inria.