logo móvil
Contáctanos

Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr

Autores: He, Shumeng; Yang, Houqun; Zhang, Xiaoying; Li, Xuanyu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos multimodales
Segmentación semántica
Modelo Transformer
Imágenes de teledetección
Fusión de características
CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones


Descripción
Debido a la similitud interclase inherente y al desequilibrio de clases de las imágenes de teledetección, es difícil obtener resultados efectivos en la segmentación semántica de una sola fuente. Consideramos aplicar datos multimodales a la tarea de segmentación semántica de imágenes de teledetección HSR (alta resolución espacial) y obtener información semántica más rica mediante la fusión de datos para mejorar la precisión y eficiencia de la segmentación. Sin embargo, sigue siendo un gran desafío descubrir cómo lograr la complementariedad eficiente y útil de la información basada en la segmentación semántica de imágenes de teledetección multimodales, por lo que debemos examinar seriamente los numerosos modelos. Transformer ha logrado un progreso notable en la disminución de la complejidad del modelo y la mejora de la escalabilidad y eficiencia de entrenamiento en tareas de visión por computadora. Por lo tanto, introducimos Transformer en la segmentación semántica multimodal. Para hacer frente al problema de que el modelo Transformer requiere una gran cantidad de recursos informáticos, proponemos un modelo, MFTransNet, que combina una CNN (red neuronal convolucional) y Transformer para realizar una estructura de segmentación semántica multimodal ligera. Para ello, primero se utiliza una pequeña red convolucional para realizar la extracción preliminar de características. Posteriormente, estas características se envían al módulo de fusión de características de múltiples cabezas para lograr una fusión de características adaptativa. Finalmente, las características de diferentes escalas se integran a través de un decodificador multinivel. Los resultados experimentales demuestran que MFTransNet logra el mejor equilibrio entre la precisión de segmentación, la eficiencia en el uso de memoria y la velocidad de inferencia.

Otros recursos que podrían interesarte

Temas Virtualpro