logo móvil
Contáctanos

Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento

Autores: Ghourabi, Malak; Mourad-Chehade, Farah; Chkeir, Aly

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tos
Enfermedades respiratorias
Swin Transformer
Tos húmeda y seca
Representaciones STFT
Aumento de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones


Descripción
Tos, un síntoma común asociado con varios problemas respiratorios, es un indicador crucial para diagnosticar y rastrear enfermedades respiratorias. La identificación y categorización precisas de los sonidos de la tos, especialmente distinguiendo entre tos húmeda y seca, son esenciales para comprender las condiciones de salud subyacentes. Esta investigación se centra en aplicar el Swin Transformer para clasificar tos húmeda y seca utilizando representaciones de la transformada de Fourier de tiempo corto (STFT). Llevamos a cabo una evaluación exhaustiva, que incluye una comparación de rendimiento con un modelo de red neuronal convolucional 2D (2D CNN), y la exploración de dos métodos distintos de aumento de imagen: aumento de máscara de tiempo y técnicas clásicas de aumento de imagen. Se realiza una extensa sintonización de hiperparámetros para optimizar el rendimiento del Swin Transformer, considerando el tamaño de entrada, el tamaño del parche, el tamaño de incrustación, el número de épocas, el tipo de optimizador y la técnica de regularización. Nuestros resultados demuestran la precisión superior del Swin Transformer, especialmente cuando se entrena en imágenes STFT aumentadas clásicamente con configuraciones optimizadas (tamaño de entrada de 320 x 320, optimizador RMS, tamaño de parche de 8 x 8 y un tamaño de incrustación de 128). El enfoque logra una precisión de prueba notable (88.37%) y valores de AUC de ROC (94.88%) en el desafiante conjunto de datos COUGHVID de crowdsourcing, marcando mejoras de aproximadamente un 2.5% y un aumento del 11% en la precisión de prueba y los valores de AUC de ROC, respectivamente, en comparación con estudios anteriores. Estos hallazgos subrayan la eficacia de las arquitecturas de Swin Transformer en la detección de enfermedades y problemas de clasificación de atención médica.

Otros recursos que podrían interesarte

Temas Virtualpro