Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable
Autores: Masri, Sari; Hasasneh, Ahmad; Tami, Mohammad; Tadj, Chakib
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Señales de audio
Llantos de infantes
Transformador de visión
Técnicas de extracción de características
Precisión de clasificación
IA explicable
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Un obstáculo importante en el diagnóstico médico es la clasificación de señales de audio de alta calidad e interpretable. En este estudio, presentamos una representación basada en imágenes de archivos de audio de llanto infantil para predecir llantos anormales de bebés utilizando un transformador de visión y también mostramos mejoras significativas en el rendimiento y la interpretabilidad de esta herramienta asistida por computadora. El uso de técnicas avanzadas de extracción de características, como los Coeficientes Cepstrales de Frecuencia Gammatone (GFCC), resultó en una precisión de clasificación del 96.33%. Para otras características (espectrograma y mel-espectrograma), el rendimiento fue muy similar, con una precisión del 93.17% para el espectrograma y del 94.83% para el mel-espectrograma. Utilizamos nuestro modelo de transformador de visión (ViT), que es menos complejo pero más efectivo que el transformador de espectrograma de audio propuesto (AST). Incorporamos técnicas de IA explicable (XAI) como la Propagación de Relevancia por Capas (LRP), Explicaciones Locales Interpretable Independientes del Modelo (LIME) y mecanismos de atención para garantizar la transparencia y fiabilidad en la toma de decisiones, lo que nos ayudó a entender el porqué de las predicciones del modelo. La precisión de detección fue mayor que la reportada anteriormente y los resultados fueron fáciles de interpretar, demostrando que este trabajo puede servir potencialmente como un nuevo estándar para tareas de clasificación de audio, especialmente en diagnósticos médicos, y proporcionando mejores perspectivas para un futuro inminente de soluciones de salud basadas en IA confiables.
Descripción
Un obstáculo importante en el diagnóstico médico es la clasificación de señales de audio de alta calidad e interpretable. En este estudio, presentamos una representación basada en imágenes de archivos de audio de llanto infantil para predecir llantos anormales de bebés utilizando un transformador de visión y también mostramos mejoras significativas en el rendimiento y la interpretabilidad de esta herramienta asistida por computadora. El uso de técnicas avanzadas de extracción de características, como los Coeficientes Cepstrales de Frecuencia Gammatone (GFCC), resultó en una precisión de clasificación del 96.33%. Para otras características (espectrograma y mel-espectrograma), el rendimiento fue muy similar, con una precisión del 93.17% para el espectrograma y del 94.83% para el mel-espectrograma. Utilizamos nuestro modelo de transformador de visión (ViT), que es menos complejo pero más efectivo que el transformador de espectrograma de audio propuesto (AST). Incorporamos técnicas de IA explicable (XAI) como la Propagación de Relevancia por Capas (LRP), Explicaciones Locales Interpretable Independientes del Modelo (LIME) y mecanismos de atención para garantizar la transparencia y fiabilidad en la toma de decisiones, lo que nos ayudó a entender el porqué de las predicciones del modelo. La precisión de detección fue mayor que la reportada anteriormente y los resultados fueron fáciles de interpretar, demostrando que este trabajo puede servir potencialmente como un nuevo estándar para tareas de clasificación de audio, especialmente en diagnósticos médicos, y proporcionando mejores perspectivas para un futuro inminente de soluciones de salud basadas en IA confiables.