logo móvil
Contáctanos

Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable

Autores: Masri, Sari; Hasasneh, Ahmad; Tami, Mohammad; Tadj, Chakib

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Señales de audio
Llantos de infantes
Transformador de visión
Técnicas de extracción de características
Precisión de clasificación
IA explicable

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Un obstáculo importante en el diagnóstico médico es la clasificación de señales de audio de alta calidad e interpretable. En este estudio, presentamos una representación basada en imágenes de archivos de audio de llanto infantil para predecir llantos anormales de bebés utilizando un transformador de visión y también mostramos mejoras significativas en el rendimiento y la interpretabilidad de esta herramienta asistida por computadora. El uso de técnicas avanzadas de extracción de características, como los Coeficientes Cepstrales de Frecuencia Gammatone (GFCC), resultó en una precisión de clasificación del 96.33%. Para otras características (espectrograma y mel-espectrograma), el rendimiento fue muy similar, con una precisión del 93.17% para el espectrograma y del 94.83% para el mel-espectrograma. Utilizamos nuestro modelo de transformador de visión (ViT), que es menos complejo pero más efectivo que el transformador de espectrograma de audio propuesto (AST). Incorporamos técnicas de IA explicable (XAI) como la Propagación de Relevancia por Capas (LRP), Explicaciones Locales Interpretable Independientes del Modelo (LIME) y mecanismos de atención para garantizar la transparencia y fiabilidad en la toma de decisiones, lo que nos ayudó a entender el porqué de las predicciones del modelo. La precisión de detección fue mayor que la reportada anteriormente y los resultados fueron fáciles de interpretar, demostrando que este trabajo puede servir potencialmente como un nuevo estándar para tareas de clasificación de audio, especialmente en diagnósticos médicos, y proporcionando mejores perspectivas para un futuro inminente de soluciones de salud basadas en IA confiables.

Otros recursos que podrían interesarte

Temas Virtualpro