Mstrans: multi-scale transformer for building extraction from hr remote sensing images
Autores: Yang, Fei; Jiang, Fenlong; Li, Jianzhao; Lu, Lei
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Mstrans: multi-scale transformer for building extraction from hr remote sensing images
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Edificios
Extracción
Inteligencia computacional
Redes neuronales convolucionales
Transformadores
Transformador multiescala
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
Los edificios son uno de los objetivos más importantes de la transformación humana de la superficie terrestre. Por lo tanto, la extracción de edificios (BE), como en la gestión de recursos urbanos y la planificación, es una tarea significativa para la producción y la vida actual. Las técnicas de inteligencia computacional basadas en redes neuronales convolucionales (CNN) y Transformadores han comenzado a ser de interés en BE, y han logrado algunos avances. Sin embargo, los métodos de BE basados en CNN están limitados por la dificultad de capturar relaciones globales a larga distancia, mientras que los métodos basados en Transformadores a menudo no son lo suficientemente detallados para tareas de anotación a nivel de píxel porque se centran en la información global. Para superar las limitaciones, se propone un Transformador multi-escala (MSTrans) para BE a partir de imágenes de teledetección de alta resolución. En el MSTrans propuesto, desarrollamos un módulo Transformador multi-escala (MST) basado en agrupación piramidal espacial atrous (ASPP). El módulo MST puede capturar eficazmente tokens de diferentes escalas a través del codificador y decodificador del Transformador. Esto puede mejorar la extracción de características multi-escala de los edificios, mejorando así el rendimiento de BE. Experimentos en tres conjuntos de datos de BE reales y desafiantes verifican la efectividad del MSTrans propuesto. Si bien el enfoque propuesto puede no lograr las mayores precisiones y recuperaciones en comparación con los siete métodos de referencia, mejora las métricas generales F1 y mIoU en un 0.4% y 1.67%, respectivamente.
Descripción
Los edificios son uno de los objetivos más importantes de la transformación humana de la superficie terrestre. Por lo tanto, la extracción de edificios (BE), como en la gestión de recursos urbanos y la planificación, es una tarea significativa para la producción y la vida actual. Las técnicas de inteligencia computacional basadas en redes neuronales convolucionales (CNN) y Transformadores han comenzado a ser de interés en BE, y han logrado algunos avances. Sin embargo, los métodos de BE basados en CNN están limitados por la dificultad de capturar relaciones globales a larga distancia, mientras que los métodos basados en Transformadores a menudo no son lo suficientemente detallados para tareas de anotación a nivel de píxel porque se centran en la información global. Para superar las limitaciones, se propone un Transformador multi-escala (MSTrans) para BE a partir de imágenes de teledetección de alta resolución. En el MSTrans propuesto, desarrollamos un módulo Transformador multi-escala (MST) basado en agrupación piramidal espacial atrous (ASPP). El módulo MST puede capturar eficazmente tokens de diferentes escalas a través del codificador y decodificador del Transformador. Esto puede mejorar la extracción de características multi-escala de los edificios, mejorando así el rendimiento de BE. Experimentos en tres conjuntos de datos de BE reales y desafiantes verifican la efectividad del MSTrans propuesto. Si bien el enfoque propuesto puede no lograr las mayores precisiones y recuperaciones en comparación con los siete métodos de referencia, mejora las métricas generales F1 y mIoU en un 0.4% y 1.67%, respectivamente.