Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr

Autores: He, Shumeng; Yang, Houqun; Zhang, Xiaoying; Li, Xuanyu

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Mftransnet: un fusión multi-modal con red cnn-transformer para segmentación semántica de imágenes de sensores remotos de hsr

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos multimodales

Segmentación semántica

Modelo Transformer

Imágenes de teledetección

Fusión de características

CNN

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 22

Citaciones: Sin citaciones

Debido a la similitud interclase inherente y al desequilibrio de clases de las imágenes de teledetección, es difícil obtener resultados efectivos en la segmentación semántica de una sola fuente. Consideramos aplicar datos multimodales a la tarea de segmentación semántica de imágenes de teledetección HSR (alta resolución espacial) y obtener información semántica más rica mediante la fusión de datos para mejorar la precisión y eficiencia de la segmentación. Sin embargo, sigue siendo un gran desafío descubrir cómo lograr la complementariedad eficiente y útil de la información basada en la segmentación semántica de imágenes de teledetección multimodales, por lo que debemos examinar seriamente los numerosos modelos. Transformer ha logrado un progreso notable en la disminución de la complejidad del modelo y la mejora de la escalabilidad y eficiencia de entrenamiento en tareas de visión por computadora. Por lo tanto, introducimos Transformer en la segmentación semántica multimodal. Para hacer frente al problema de que el modelo Transformer requiere una gran cantidad de recursos informáticos, proponemos un modelo, MFTransNet, que combina una CNN (red neuronal convolucional) y Transformer para realizar una estructura de segmentación semántica multimodal ligera. Para ello, primero se utiliza una pequeña red convolucional para realizar la extracción preliminar de características. Posteriormente, estas características se envían al módulo de fusión de características de múltiples cabezas para lograr una fusión de características adaptativa. Finalmente, las características de diferentes escalas se integran a través de un decodificador multinivel. Los resultados experimentales demuestran que MFTransNet logra el mejor equilibrio entre la precisión de segmentación, la eficiencia en el uso de memoria y la velocidad de inferencia.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro