Red de atención de fusión de características a escala múltiple para la extracción de edificios en imágenes de teledetección
Autores: Liu, Jia; Gu, Hang; Li, Zuhe; Chen, Hongyang; Chen, Hao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de atención de fusión de características a escala múltiple para la extracción de edificios en imágenes de teledetección
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Segmentación semántica de edificios en imágenes de teledetección
Aprendizaje profundo
Extracción de redes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La segmentación semántica eficiente de edificios en imágenes de teledetección de alta resolución espacial es un requisito técnico para la gestión de recursos terrestres, la cartografía de alta precisión, la planificación de la construcción y otras aplicaciones. Los métodos actuales de extracción de edificios basados en aprendizaje profundo pueden obtener características abstractas de alto nivel de las imágenes. Sin embargo, la extracción de algunos edificios ocultos es inexacta y, a medida que la red se profundiza, se pierden los edificios de pequeño volumen y los bordes se difuminan. Por lo tanto, presentamos una red de combinación de atención multi-resolución, que emplea un módulo de atención de canal y espacial a escala múltiple (MCAM) para capturar de forma adaptativa características clave y eliminar información irrelevante, lo que mejora la precisión de la extracción de edificios. Además, presentamos un módulo de conectividad residual en capas (LRCM) para mejorar la expresión de información en diferentes escalas a través de la fusión de características a varios niveles, mejorando significativamente la comprensión del contexto y la captura de detalles de bordes finos. Se realizaron experimentos extensos en el conjunto de datos de imágenes aéreas de WHU y en el conjunto de datos de edificios de Massachusetts. En comparación con los métodos de segmentación semántica de última generación, esta red logra mejores resultados de extracción de edificios en imágenes de teledetección, demostrando la efectividad del método.
Descripción
La segmentación semántica eficiente de edificios en imágenes de teledetección de alta resolución espacial es un requisito técnico para la gestión de recursos terrestres, la cartografía de alta precisión, la planificación de la construcción y otras aplicaciones. Los métodos actuales de extracción de edificios basados en aprendizaje profundo pueden obtener características abstractas de alto nivel de las imágenes. Sin embargo, la extracción de algunos edificios ocultos es inexacta y, a medida que la red se profundiza, se pierden los edificios de pequeño volumen y los bordes se difuminan. Por lo tanto, presentamos una red de combinación de atención multi-resolución, que emplea un módulo de atención de canal y espacial a escala múltiple (MCAM) para capturar de forma adaptativa características clave y eliminar información irrelevante, lo que mejora la precisión de la extracción de edificios. Además, presentamos un módulo de conectividad residual en capas (LRCM) para mejorar la expresión de información en diferentes escalas a través de la fusión de características a varios niveles, mejorando significativamente la comprensión del contexto y la captura de detalles de bordes finos. Se realizaron experimentos extensos en el conjunto de datos de imágenes aéreas de WHU y en el conjunto de datos de edificios de Massachusetts. En comparación con los métodos de segmentación semántica de última generación, esta red logra mejores resultados de extracción de edificios en imágenes de teledetección, demostrando la efectividad del método.