Fusion-Former: características de fusión entre Transformer y Convolution para la detección de cambios en edificaciones
Autores: Fan, Zipeng; Wang, Sanqian; Pu, Xueting; Wei, Hongguang; Liu, Yuan; Sui, Xiubao; Chen, Qian
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Fusion-Former: características de fusión entre Transformer y Convolution para la detección de cambios en edificaciones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de cambios
Imágenes de teledetección
Métodos basados en aprendizaje profundo
Fusion-Former
Fusion-Block
Módulo de Visión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 30
Citaciones: Sin citaciones
La detección de cambios (CD) en imágenes de teledetección es una técnica para analizar y caracterizar cambios en la superficie a partir de datos captados de forma remota en diferentes períodos de tiempo. Sin embargo, debido a la naturaleza diversa de los objetivos en escenarios complejos de teledetección, los métodos actuales basados en aprendizaje profundo a veces sufren del problema de que las características extraídas no son lo suficientemente discriminativas, lo que resulta en detecciones falsas y pérdida de detalles. Para resolver estos desafíos, proponemos un método llamado Fusion-Former para la detección de cambios en la construcción. Nuestro enfoque fusiona autoatención basada en ventanas con convolución de profundidad, llamado Fusion-Block, que combina redes neuronales convolucionales (CNN) y un transformador para integrar información de manera efectiva en diferentes escalas. Además, con el fin de mejorar significativamente el rendimiento del transformador y el efecto de Fusion-Block, se introduce un módulo de atención innovador llamado Módulo de Visión. En los conjuntos de datos LEVIR-CD y WHU-CD, nuestro modelo logró puntajes F1 del 89.53% y 86.00%, respectivamente, demostrando su rendimiento superior sobre los métodos de vanguardia.
Descripción
La detección de cambios (CD) en imágenes de teledetección es una técnica para analizar y caracterizar cambios en la superficie a partir de datos captados de forma remota en diferentes períodos de tiempo. Sin embargo, debido a la naturaleza diversa de los objetivos en escenarios complejos de teledetección, los métodos actuales basados en aprendizaje profundo a veces sufren del problema de que las características extraídas no son lo suficientemente discriminativas, lo que resulta en detecciones falsas y pérdida de detalles. Para resolver estos desafíos, proponemos un método llamado Fusion-Former para la detección de cambios en la construcción. Nuestro enfoque fusiona autoatención basada en ventanas con convolución de profundidad, llamado Fusion-Block, que combina redes neuronales convolucionales (CNN) y un transformador para integrar información de manera efectiva en diferentes escalas. Además, con el fin de mejorar significativamente el rendimiento del transformador y el efecto de Fusion-Block, se introduce un módulo de atención innovador llamado Módulo de Visión. En los conjuntos de datos LEVIR-CD y WHU-CD, nuestro modelo logró puntajes F1 del 89.53% y 86.00%, respectivamente, demostrando su rendimiento superior sobre los métodos de vanguardia.