Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento
Autores: Ghourabi, Malak; Mourad-Chehade, Farah; Chkeir, Aly
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Tos
Enfermedades respiratorias
Swin Transformer
Tos húmeda y seca
Representaciones STFT
Aumento de imagen
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
Tos, un síntoma común asociado con varios problemas respiratorios, es un indicador crucial para diagnosticar y rastrear enfermedades respiratorias. La identificación y categorización precisas de los sonidos de la tos, especialmente distinguiendo entre tos húmeda y seca, son esenciales para comprender las condiciones de salud subyacentes. Esta investigación se centra en aplicar el Swin Transformer para clasificar tos húmeda y seca utilizando representaciones de la transformada de Fourier de tiempo corto (STFT). Llevamos a cabo una evaluación exhaustiva, que incluye una comparación de rendimiento con un modelo de red neuronal convolucional 2D (2D CNN), y la exploración de dos métodos distintos de aumento de imagen: aumento de máscara de tiempo y técnicas clásicas de aumento de imagen. Se realiza una extensa sintonización de hiperparámetros para optimizar el rendimiento del Swin Transformer, considerando el tamaño de entrada, el tamaño del parche, el tamaño de incrustación, el número de épocas, el tipo de optimizador y la técnica de regularización. Nuestros resultados demuestran la precisión superior del Swin Transformer, especialmente cuando se entrena en imágenes STFT aumentadas clásicamente con configuraciones optimizadas (tamaño de entrada de 320 x 320, optimizador RMS, tamaño de parche de 8 x 8 y un tamaño de incrustación de 128). El enfoque logra una precisión de prueba notable (88.37%) y valores de AUC de ROC (94.88%) en el desafiante conjunto de datos COUGHVID de crowdsourcing, marcando mejoras de aproximadamente un 2.5% y un aumento del 11% en la precisión de prueba y los valores de AUC de ROC, respectivamente, en comparación con estudios anteriores. Estos hallazgos subrayan la eficacia de las arquitecturas de Swin Transformer en la detección de enfermedades y problemas de clasificación de atención médica.
Descripción
Tos, un síntoma común asociado con varios problemas respiratorios, es un indicador crucial para diagnosticar y rastrear enfermedades respiratorias. La identificación y categorización precisas de los sonidos de la tos, especialmente distinguiendo entre tos húmeda y seca, son esenciales para comprender las condiciones de salud subyacentes. Esta investigación se centra en aplicar el Swin Transformer para clasificar tos húmeda y seca utilizando representaciones de la transformada de Fourier de tiempo corto (STFT). Llevamos a cabo una evaluación exhaustiva, que incluye una comparación de rendimiento con un modelo de red neuronal convolucional 2D (2D CNN), y la exploración de dos métodos distintos de aumento de imagen: aumento de máscara de tiempo y técnicas clásicas de aumento de imagen. Se realiza una extensa sintonización de hiperparámetros para optimizar el rendimiento del Swin Transformer, considerando el tamaño de entrada, el tamaño del parche, el tamaño de incrustación, el número de épocas, el tipo de optimizador y la técnica de regularización. Nuestros resultados demuestran la precisión superior del Swin Transformer, especialmente cuando se entrena en imágenes STFT aumentadas clásicamente con configuraciones optimizadas (tamaño de entrada de 320 x 320, optimizador RMS, tamaño de parche de 8 x 8 y un tamaño de incrustación de 128). El enfoque logra una precisión de prueba notable (88.37%) y valores de AUC de ROC (94.88%) en el desafiante conjunto de datos COUGHVID de crowdsourcing, marcando mejoras de aproximadamente un 2.5% y un aumento del 11% en la precisión de prueba y los valores de AUC de ROC, respectivamente, en comparación con estudios anteriores. Estos hallazgos subrayan la eficacia de las arquitecturas de Swin Transformer en la detección de enfermedades y problemas de clasificación de atención médica.