Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr
Autores: He, Shumeng; Yang, Houqun; Zhang, Xiaoying; Li, Xuanyu
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos multimodales
Segmentación semántica
Modelo Transformer
Imágenes de teledetección
Fusión de características
CNN
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 22
Citaciones: Sin citaciones
Debido a la similitud interclase inherente y al desequilibrio de clases de las imágenes de teledetección, es difícil obtener resultados efectivos en la segmentación semántica de una sola fuente. Consideramos aplicar datos multimodales a la tarea de segmentación semántica de imágenes de teledetección HSR (alta resolución espacial) y obtener información semántica más rica mediante la fusión de datos para mejorar la precisión y eficiencia de la segmentación. Sin embargo, sigue siendo un gran desafío descubrir cómo lograr la complementariedad eficiente y útil de la información basada en la segmentación semántica de imágenes de teledetección multimodales, por lo que debemos examinar seriamente los numerosos modelos. Transformer ha logrado un progreso notable en la disminución de la complejidad del modelo y la mejora de la escalabilidad y eficiencia de entrenamiento en tareas de visión por computadora. Por lo tanto, introducimos Transformer en la segmentación semántica multimodal. Para hacer frente al problema de que el modelo Transformer requiere una gran cantidad de recursos informáticos, proponemos un modelo, MFTransNet, que combina una CNN (red neuronal convolucional) y Transformer para realizar una estructura de segmentación semántica multimodal ligera. Para ello, primero se utiliza una pequeña red convolucional para realizar la extracción preliminar de características. Posteriormente, estas características se envían al módulo de fusión de características de múltiples cabezas para lograr una fusión de características adaptativa. Finalmente, las características de diferentes escalas se integran a través de un decodificador multinivel. Los resultados experimentales demuestran que MFTransNet logra el mejor equilibrio entre la precisión de segmentación, la eficiencia en el uso de memoria y la velocidad de inferencia.
Descripción
Debido a la similitud interclase inherente y al desequilibrio de clases de las imágenes de teledetección, es difícil obtener resultados efectivos en la segmentación semántica de una sola fuente. Consideramos aplicar datos multimodales a la tarea de segmentación semántica de imágenes de teledetección HSR (alta resolución espacial) y obtener información semántica más rica mediante la fusión de datos para mejorar la precisión y eficiencia de la segmentación. Sin embargo, sigue siendo un gran desafío descubrir cómo lograr la complementariedad eficiente y útil de la información basada en la segmentación semántica de imágenes de teledetección multimodales, por lo que debemos examinar seriamente los numerosos modelos. Transformer ha logrado un progreso notable en la disminución de la complejidad del modelo y la mejora de la escalabilidad y eficiencia de entrenamiento en tareas de visión por computadora. Por lo tanto, introducimos Transformer en la segmentación semántica multimodal. Para hacer frente al problema de que el modelo Transformer requiere una gran cantidad de recursos informáticos, proponemos un modelo, MFTransNet, que combina una CNN (red neuronal convolucional) y Transformer para realizar una estructura de segmentación semántica multimodal ligera. Para ello, primero se utiliza una pequeña red convolucional para realizar la extracción preliminar de características. Posteriormente, estas características se envían al módulo de fusión de características de múltiples cabezas para lograr una fusión de características adaptativa. Finalmente, las características de diferentes escalas se integran a través de un decodificador multinivel. Los resultados experimentales demuestran que MFTransNet logra el mejor equilibrio entre la precisión de segmentación, la eficiencia en el uso de memoria y la velocidad de inferencia.