Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento

Autores: Ghourabi, Malak; Mourad-Chehade, Farah; Chkeir, Aly

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Avanzando en la clasificación de la tos: Swin Transformer vs. CNN 2D con STFT y técnicas de aumento

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Tos

Enfermedades respiratorias

Swin Transformer

Tos húmeda y seca

Representaciones STFT

Aumento de imagen

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 39

Citaciones: Sin citaciones

Tos, un síntoma común asociado con varios problemas respiratorios, es un indicador crucial para diagnosticar y rastrear enfermedades respiratorias. La identificación y categorización precisas de los sonidos de la tos, especialmente distinguiendo entre tos húmeda y seca, son esenciales para comprender las condiciones de salud subyacentes. Esta investigación se centra en aplicar el Swin Transformer para clasificar tos húmeda y seca utilizando representaciones de la transformada de Fourier de tiempo corto (STFT). Llevamos a cabo una evaluación exhaustiva, que incluye una comparación de rendimiento con un modelo de red neuronal convolucional 2D (2D CNN), y la exploración de dos métodos distintos de aumento de imagen: aumento de máscara de tiempo y técnicas clásicas de aumento de imagen. Se realiza una extensa sintonización de hiperparámetros para optimizar el rendimiento del Swin Transformer, considerando el tamaño de entrada, el tamaño del parche, el tamaño de incrustación, el número de épocas, el tipo de optimizador y la técnica de regularización. Nuestros resultados demuestran la precisión superior del Swin Transformer, especialmente cuando se entrena en imágenes STFT aumentadas clásicamente con configuraciones optimizadas (tamaño de entrada de 320 x 320, optimizador RMS, tamaño de parche de 8 x 8 y un tamaño de incrustación de 128). El enfoque logra una precisión de prueba notable (88.37%) y valores de AUC de ROC (94.88%) en el desafiante conjunto de datos COUGHVID de crowdsourcing, marcando mejoras de aproximadamente un 2.5% y un aumento del 11% en la precisión de prueba y los valores de AUC de ROC, respectivamente, en comparación con estudios anteriores. Estos hallazgos subrayan la eficacia de las arquitecturas de Swin Transformer en la detección de enfermedades y problemas de clasificación de atención médica.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro