Comparando la robustez de ResNet, Swin-Transformer y MLP-Mixer ante cambios únicos en la distribución de imágenes de fondo de ojo
Autores: Ishihara, Kazuaki; Matsumoto, Koutarou
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Comparando la robustez de ResNet, Swin-Transformer y MLP-Mixer ante cambios únicos en la distribución de imágenes de fondo de ojo
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Retinopatía diabética
Modelos de aprendizaje profundo
Cambios en la distribución
Conjuntos de datos de imágenes médicas
Swin-Transformer
ResNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
Antecedentes: La retinopatía diabética (DR) es la principal causa de discapacidad visual y ceguera. En consecuencia, se han desarrollado numerosos modelos de aprendizaje profundo para la detección temprana de la DR. Las aplicaciones críticas de seguridad empleadas en el diagnóstico médico deben ser robustas a los cambios de distribución. Estudios anteriores se han centrado en el rendimiento del modelo bajo cambios de distribución utilizando conjuntos de datos de imágenes naturales como ImageNet, CIFAR-10 y SVHN. Sin embargo, existe una falta de investigación que investigue específicamente el rendimiento utilizando conjuntos de datos de imágenes médicas. Para abordar esta brecha, investigamos las tendencias bajo cambios de distribución utilizando conjuntos de datos de imágenes de fondo de ojo. Métodos: Utilizamos el conjunto de datos de EyePACS para el diagnóstico de la DR, introdujimos ruido específico para imágenes de fondo de ojo y evaluamos el rendimiento de los modelos ResNet, Swin-Transformer y MLP-Mixer bajo un cambio de distribución. La capacidad discriminativa se evaluó utilizando el Área Bajo la Curva Característica de Operación del Receptor (ROC-AUC), mientras que la capacidad de calibración se evaluó utilizando el error de calibración de barrido monótono (ECE sweep). Resultados: Swin-Transformer mostró un ROC-AUC más alto que ResNet bajo todos los tipos de ruido y mostró una reducción menor en el ROC-AUC debido al ruido. ECE sweep no mostró una tendencia consistente en diferentes arquitecturas de modelos. Conclusiones: Swin-Transformer demostró consistentemente una discriminación superior en comparación con ResNet. Esta tendencia persistió incluso bajo cambios de distribución únicos en las imágenes de fondo de ojo.
Descripción
Antecedentes: La retinopatía diabética (DR) es la principal causa de discapacidad visual y ceguera. En consecuencia, se han desarrollado numerosos modelos de aprendizaje profundo para la detección temprana de la DR. Las aplicaciones críticas de seguridad empleadas en el diagnóstico médico deben ser robustas a los cambios de distribución. Estudios anteriores se han centrado en el rendimiento del modelo bajo cambios de distribución utilizando conjuntos de datos de imágenes naturales como ImageNet, CIFAR-10 y SVHN. Sin embargo, existe una falta de investigación que investigue específicamente el rendimiento utilizando conjuntos de datos de imágenes médicas. Para abordar esta brecha, investigamos las tendencias bajo cambios de distribución utilizando conjuntos de datos de imágenes de fondo de ojo. Métodos: Utilizamos el conjunto de datos de EyePACS para el diagnóstico de la DR, introdujimos ruido específico para imágenes de fondo de ojo y evaluamos el rendimiento de los modelos ResNet, Swin-Transformer y MLP-Mixer bajo un cambio de distribución. La capacidad discriminativa se evaluó utilizando el Área Bajo la Curva Característica de Operación del Receptor (ROC-AUC), mientras que la capacidad de calibración se evaluó utilizando el error de calibración de barrido monótono (ECE sweep). Resultados: Swin-Transformer mostró un ROC-AUC más alto que ResNet bajo todos los tipos de ruido y mostró una reducción menor en el ROC-AUC debido al ruido. ECE sweep no mostró una tendencia consistente en diferentes arquitecturas de modelos. Conclusiones: Swin-Transformer demostró consistentemente una discriminación superior en comparación con ResNet. Esta tendencia persistió incluso bajo cambios de distribución únicos en las imágenes de fondo de ojo.