Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable

Autores: Masri, Sari; Hasasneh, Ahmad; Tami, Mohammad; Tadj, Chakib

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Explorando el impacto de las representaciones de audio basadas en imágenes en tareas de clasificación utilizando transformadores de visión y técnicas de IA explicable

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Señales de audio

Llantos de infantes

Transformador de visión

Técnicas de extracción de características

Precisión de clasificación

IA explicable

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Un obstáculo importante en el diagnóstico médico es la clasificación de señales de audio de alta calidad e interpretable. En este estudio, presentamos una representación basada en imágenes de archivos de audio de llanto infantil para predecir llantos anormales de bebés utilizando un transformador de visión y también mostramos mejoras significativas en el rendimiento y la interpretabilidad de esta herramienta asistida por computadora. El uso de técnicas avanzadas de extracción de características, como los Coeficientes Cepstrales de Frecuencia Gammatone (GFCC), resultó en una precisión de clasificación del 96.33%. Para otras características (espectrograma y mel-espectrograma), el rendimiento fue muy similar, con una precisión del 93.17% para el espectrograma y del 94.83% para el mel-espectrograma. Utilizamos nuestro modelo de transformador de visión (ViT), que es menos complejo pero más efectivo que el transformador de espectrograma de audio propuesto (AST). Incorporamos técnicas de IA explicable (XAI) como la Propagación de Relevancia por Capas (LRP), Explicaciones Locales Interpretable Independientes del Modelo (LIME) y mecanismos de atención para garantizar la transparencia y fiabilidad en la toma de decisiones, lo que nos ayudó a entender el porqué de las predicciones del modelo. La precisión de detección fue mayor que la reportada anteriormente y los resultados fueron fáciles de interpretar, demostrando que este trabajo puede servir potencialmente como un nuevo estándar para tareas de clasificación de audio, especialmente en diagnósticos médicos, y proporcionando mejores perspectivas para un futuro inminente de soluciones de salud basadas en IA confiables.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro