ShiftTransUNet: un modelo eficiente de aprendizaje profundo para segmentación de imágenes médicas utilizando el marco ShiftViT
Autores: Zhao, Ming; Yang, Yimin; Zhang, Yonghong; Peng, Sheng-Lung
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
ShiftTransUNet: un modelo eficiente de aprendizaje profundo para segmentación de imágenes médicas utilizando el marco ShiftViT
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje profundo
Segmentación de imágenes médicas
Estructuras de red
Demandas computacionales
Eficiencia en la segmentación de imágenes
Red de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El aprendizaje profundo ha avanzado significativamente en el campo de la segmentación de imágenes médicas. Sin embargo, la complejidad de las estructuras de red a menudo conlleva altas demandas computacionales, limitando su eficiencia práctica. Para mejorar la eficiencia de la segmentación de imágenes, este artículo presenta una red de aprendizaje profundo innovadora, concisa y ligera. En primer lugar, para reducir la complejidad del modelo, reemplazamos el mecanismo de atención en la estructura tradicional del transformador de visión (ViT) con una operación de desplazamiento, creando la arquitectura ShiftViT. Esta sustitución disminuyó significativamente la computación y el número de parámetros mientras se preservaba el rendimiento del modelo. En segundo lugar, para retener y mejorar las características detalladas y facilitar una transferencia de información más precisa entre diferentes capas, empleamos una estrategia de conexión progresiva de salto a escala completa. Este enfoque integra eficazmente información de características a múltiples escalas, mejorando aún más el rendimiento del modelo. Además, para reducir aún más la complejidad de la red, inspirados en la independencia de probabilidades, optamos por la convolución separable en profundidad sobre la convolución tradicional. Esto mejora la independencia relativa entre capas. En conjunto, estas modificaciones lograron resultados de segmentación superiores en los conjuntos de datos Synapse y Automated Cardiac Diagnostic Challenge (ACDC) en comparación con los modelos convencionales, con ventajas sustanciales en términos de eficiencia computacional y cantidad de parámetros. El enfoque propuesto representa una solución efectiva para aplicaciones de imágenes médicas con recursos computacionales limitados y promete mucho para la práctica clínica.
Descripción
El aprendizaje profundo ha avanzado significativamente en el campo de la segmentación de imágenes médicas. Sin embargo, la complejidad de las estructuras de red a menudo conlleva altas demandas computacionales, limitando su eficiencia práctica. Para mejorar la eficiencia de la segmentación de imágenes, este artículo presenta una red de aprendizaje profundo innovadora, concisa y ligera. En primer lugar, para reducir la complejidad del modelo, reemplazamos el mecanismo de atención en la estructura tradicional del transformador de visión (ViT) con una operación de desplazamiento, creando la arquitectura ShiftViT. Esta sustitución disminuyó significativamente la computación y el número de parámetros mientras se preservaba el rendimiento del modelo. En segundo lugar, para retener y mejorar las características detalladas y facilitar una transferencia de información más precisa entre diferentes capas, empleamos una estrategia de conexión progresiva de salto a escala completa. Este enfoque integra eficazmente información de características a múltiples escalas, mejorando aún más el rendimiento del modelo. Además, para reducir aún más la complejidad de la red, inspirados en la independencia de probabilidades, optamos por la convolución separable en profundidad sobre la convolución tradicional. Esto mejora la independencia relativa entre capas. En conjunto, estas modificaciones lograron resultados de segmentación superiores en los conjuntos de datos Synapse y Automated Cardiac Diagnostic Challenge (ACDC) en comparación con los modelos convencionales, con ventajas sustanciales en términos de eficiencia computacional y cantidad de parámetros. El enfoque propuesto representa una solución efectiva para aplicaciones de imágenes médicas con recursos computacionales limitados y promete mucho para la práctica clínica.