RFTNet: red de fusión de atención de región combinada con transformador de visión de doble rama para segmentación de imágenes de tumores cerebrales multimodales
Autores: Jiao, Chunxia; Yang, Tiejun; Yan, Yanghui; Yang, Aolin
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
RFTNet: red de fusión de atención de región combinada con transformador de visión de doble rama para segmentación de imágenes de tumores cerebrales multimodales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Tumor cerebral
Segmentación
Aprendizaje profundo
Red neuronal convolucional
Transformador
Multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 49
Citaciones: Sin citaciones
La segmentación de imágenes de tumores cerebrales juega un papel auxiliar significativo en el diagnóstico clínico. Recientemente, el aprendizaje profundo se ha introducido en tareas de segmentación multimodal, que construyen varias estructuras de Redes Neuronales Convolucionales (CNN) para lograr un rendimiento excelente. Sin embargo, la mayoría de los métodos de segmentación basados en CNN tienen una capacidad pobre para la extracción de características globales. Transformer es bueno modelando dependencias a larga distancia, pero puede causar pérdida de información local y generalmente tiene una alta complejidad computacional. Además, es difícil explotar completamente las características de tumores cerebrales de diferentes modalidades. Para abordar estos problemas, en este documento, proponemos una red de fusión de atención por región (RAF) que combina un Transformer de visión de doble rama (DVT), llamado RFTNet. En RFTNet, el DVT se explota para capturar la información local delicada y los semánticos globales por separado mediante dos ramas. Mientras tanto, se emplea un RAF novedoso para fusionar efectivamente las imágenes de las diferentes modalidades. Finalmente, diseñamos una nueva función de pérdida híbrida, llamada función de pérdida mixta por región (RML) para calcular la importancia de cada píxel y resolver el problema del desequilibrio de clases. Los experimentos en los conjuntos de datos BrasTS2018 y BraTS2020 muestran que nuestro método obtiene una precisión de segmentación más alta que otros modelos. Además, los experimentos de ablación prueban la efectividad de cada componente clave en RFTNet.
Descripción
La segmentación de imágenes de tumores cerebrales juega un papel auxiliar significativo en el diagnóstico clínico. Recientemente, el aprendizaje profundo se ha introducido en tareas de segmentación multimodal, que construyen varias estructuras de Redes Neuronales Convolucionales (CNN) para lograr un rendimiento excelente. Sin embargo, la mayoría de los métodos de segmentación basados en CNN tienen una capacidad pobre para la extracción de características globales. Transformer es bueno modelando dependencias a larga distancia, pero puede causar pérdida de información local y generalmente tiene una alta complejidad computacional. Además, es difícil explotar completamente las características de tumores cerebrales de diferentes modalidades. Para abordar estos problemas, en este documento, proponemos una red de fusión de atención por región (RAF) que combina un Transformer de visión de doble rama (DVT), llamado RFTNet. En RFTNet, el DVT se explota para capturar la información local delicada y los semánticos globales por separado mediante dos ramas. Mientras tanto, se emplea un RAF novedoso para fusionar efectivamente las imágenes de las diferentes modalidades. Finalmente, diseñamos una nueva función de pérdida híbrida, llamada función de pérdida mixta por región (RML) para calcular la importancia de cada píxel y resolver el problema del desequilibrio de clases. Los experimentos en los conjuntos de datos BrasTS2018 y BraTS2020 muestran que nuestro método obtiene una precisión de segmentación más alta que otros modelos. Además, los experimentos de ablación prueban la efectividad de cada componente clave en RFTNet.