Modelo U-Net Híbrido con Transformadores Visuales para una Segmentación Mejorada de Imágenes Médicas de Múltiples Órganos
Autores: Jiang, Pengsong; Liu, Wufeng; Wang, Feihu; Wei, Renjie
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Modelo U-Net Híbrido con Transformadores Visuales para una Segmentación Mejorada de Imágenes Médicas de Múltiples Órganos
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Segmentación de imágenes médicas
Cnn
Relaciones globales
Transformador visual
Mecanismo de autoatención
Fusión de convolución a múltiples escalas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La segmentación de imágenes médicas es un proceso esencial que facilita la extracción y localización precisa de áreas enfermas a partir de imágenes médicas. Puede proporcionar información clara y cuantificable para apoyar a los clínicos en la toma de decisiones finales. Sin embargo, debido a la falta de modelado explícito de las relaciones globales en las CNN, no pueden aprovechar completamente las dependencias de largo alcance entre varias ubicaciones de la imagen. En este artículo, proponemos un modelo novedoso que puede extraer características semánticas locales y globales de las imágenes utilizando CNN y el transformador visual en el codificador. Es importante señalar que el mecanismo de autoatención trata una imagen 2D como una secuencia 1D de parches, lo que puede interrumpir la estructura espacial 2D inherente de la imagen. Por lo tanto, utilizamos la estructura del transformador utilizando atención visual y atención de gran núcleo, y añadimos un módulo de atención convolucional residual (RCAM) y fusión convolucional multiescala (MFC) en el decodificador. Estos pueden ayudar al modelo a capturar mejor características cruciales y detalles finos para mejorar el detalle y la precisión de los efectos de segmentación. En los conjuntos de datos de segmentación multiórgano Synapse y el desafío de diagnóstico cardíaco automatizado (ACDC), nuestro modelo tuvo un mejor rendimiento que los modelos anteriores, demostrando que es más preciso y robusto en la segmentación de imágenes médicas multiórgano.
Descripción
La segmentación de imágenes médicas es un proceso esencial que facilita la extracción y localización precisa de áreas enfermas a partir de imágenes médicas. Puede proporcionar información clara y cuantificable para apoyar a los clínicos en la toma de decisiones finales. Sin embargo, debido a la falta de modelado explícito de las relaciones globales en las CNN, no pueden aprovechar completamente las dependencias de largo alcance entre varias ubicaciones de la imagen. En este artículo, proponemos un modelo novedoso que puede extraer características semánticas locales y globales de las imágenes utilizando CNN y el transformador visual en el codificador. Es importante señalar que el mecanismo de autoatención trata una imagen 2D como una secuencia 1D de parches, lo que puede interrumpir la estructura espacial 2D inherente de la imagen. Por lo tanto, utilizamos la estructura del transformador utilizando atención visual y atención de gran núcleo, y añadimos un módulo de atención convolucional residual (RCAM) y fusión convolucional multiescala (MFC) en el decodificador. Estos pueden ayudar al modelo a capturar mejor características cruciales y detalles finos para mejorar el detalle y la precisión de los efectos de segmentación. En los conjuntos de datos de segmentación multiórgano Synapse y el desafío de diagnóstico cardíaco automatizado (ACDC), nuestro modelo tuvo un mejor rendimiento que los modelos anteriores, demostrando que es más preciso y robusto en la segmentación de imágenes médicas multiórgano.