Detección de enfermedades multi-etiqueta en imágenes de rayos X de tórax utilizando un ConvNeXtV2 ajustado con un clasificador personalizado
Autores: Xiong, Kangzhe; Tu, Yuyun; Rao, Xinping; Zou, Xiang; Du, Yingkui
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Detección de enfermedades multi-etiqueta en imágenes de rayos X de tórax utilizando un ConvNeXtV2 ajustado con un clasificador personalizado
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación de radiografías de tórax
Convfcmae
Características multiescala
Bloque de atención
Pérdida focal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La clasificación de radiografías de tórax con múltiples etiquetas basada en aprendizaje profundo ha logrado un éxito significativo, pero los modelos existentes aún tienen tres problemas principales: las convoluciones de escala fija no logran capturar tanto lesiones grandes como pequeñas, la agrupación estándar carece de atención a regiones importantes, y la clasificación lineal no tiene la capacidad de modelar la dependencia compleja entre características. Para sortear estos obstáculos, proponemos CONVFCMAE, un marco ligero pero poderoso que se basa en una estructura que está parcialmente congelada (el 77.08 % de las capas iniciales están fijas) para preservar características complejas y multiescala mientras se disminuye el número de parámetros entrenables. Nuestra arquitectura añade (1) un módulo de agrupación global inteligente que es aprendible, con convoluciones 1x1 que son ponderadas dinámicamente por su ubicación espacial, y (2) un bloque de atención de múltiples cabezas que se dedica a la recalibración de canales, junto con (3) un MLP de dos capas que ha sido mejorado con ReLU, normalización por lotes y abandono. Este módulo se utiliza para mejorar la no linealidad del espacio de características. Para reducir aún más el ruido asociado con las etiquetas y el desequilibrio en la distribución de clases inherente al conjunto de datos NIH ChestXray14, utilizamos una pérdida combinada que combina BCEWithLogits y Focal Loss, así como una extensa augmentación de datos. En ChestXray14, el promedio de ROC-AUC de CONVFCMAE es 0.852, lo que es un 3.97 por ciento mayor que el estado del arte. Los experimentos de ablación demuestran la efectividad individual y colectiva de cada componente. Las visualizaciones de Grad-CAM tienen una capacidad superior para localizar las regiones patológicas, lo que aumenta la interpretabilidad del modelo. En general, CONVFCMAE proporciona una solución práctica y generalizable al problema de extraer características de imágenes médicas de manera práctica.
Descripción
La clasificación de radiografías de tórax con múltiples etiquetas basada en aprendizaje profundo ha logrado un éxito significativo, pero los modelos existentes aún tienen tres problemas principales: las convoluciones de escala fija no logran capturar tanto lesiones grandes como pequeñas, la agrupación estándar carece de atención a regiones importantes, y la clasificación lineal no tiene la capacidad de modelar la dependencia compleja entre características. Para sortear estos obstáculos, proponemos CONVFCMAE, un marco ligero pero poderoso que se basa en una estructura que está parcialmente congelada (el 77.08 % de las capas iniciales están fijas) para preservar características complejas y multiescala mientras se disminuye el número de parámetros entrenables. Nuestra arquitectura añade (1) un módulo de agrupación global inteligente que es aprendible, con convoluciones 1x1 que son ponderadas dinámicamente por su ubicación espacial, y (2) un bloque de atención de múltiples cabezas que se dedica a la recalibración de canales, junto con (3) un MLP de dos capas que ha sido mejorado con ReLU, normalización por lotes y abandono. Este módulo se utiliza para mejorar la no linealidad del espacio de características. Para reducir aún más el ruido asociado con las etiquetas y el desequilibrio en la distribución de clases inherente al conjunto de datos NIH ChestXray14, utilizamos una pérdida combinada que combina BCEWithLogits y Focal Loss, así como una extensa augmentación de datos. En ChestXray14, el promedio de ROC-AUC de CONVFCMAE es 0.852, lo que es un 3.97 por ciento mayor que el estado del arte. Los experimentos de ablación demuestran la efectividad individual y colectiva de cada componente. Las visualizaciones de Grad-CAM tienen una capacidad superior para localizar las regiones patológicas, lo que aumenta la interpretabilidad del modelo. En general, CONVFCMAE proporciona una solución práctica y generalizable al problema de extraer características de imágenes médicas de manera práctica.