Clasificación de Instrumentos Explicables: De Modelos de Vector de Media MFCC a CNNs sobre MFCC y Mel-Spectrogramas con Perspectivas de t-SNE y Grad-CAM
Autores: Senatori, Tommaso; Nardone, Daniela; Lo Giudice, Michele; Salvini, Alessandro
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Clasificación de Instrumentos Explicables: De Modelos de Vector de Media MFCC a CNNs sobre MFCC y Mel-Spectrogramas con Perspectivas de t-SNE y Grad-CAM
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Clasificación
Aprendizaje profundo
Grabaciones de audio
Conv2D
Vectores de características
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Este documento presenta un sistema automático para la clasificación de instrumentos musicales a partir de grabaciones de audio. El proyecto aprovecha técnicas de aprendizaje profundo (DL) para lograr su objetivo, explorando tres enfoques de clasificación diferentes basados en distintas representaciones de entrada. El primer método implica la extracción de Coeficientes Cepstrales en Frecuencia Mel (MFCC) de los archivos de audio, que luego se introducen en una red neuronal convolucional bidimensional (Conv2D). El segundo enfoque utiliza imágenes de mel-espectrogramas como entrada para una arquitectura Conv2D similar. El tercer enfoque emplea clasificadores de aprendizaje automático (ML) convencionales, incluyendo Regresión Logística, K-Vecinos Más Cercanos y Bosque Aleatorio, entrenados en vectores de características derivados de MFCC. Para obtener información sobre el comportamiento del modelo DL, se aplicaron técnicas de explicabilidad al modelo Conv2D utilizando mel-espectrogramas, lo que permite una mejor comprensión de cómo la red interpreta características relevantes para la clasificación. Además, se empleó la incrustación estocástica de vecinos distribuidos en t (t-SNE) en los vectores MFCC para visualizar cómo se organizan las clases de instrumentos en el espacio de características. Uno de los principales desafíos encontrados fue el desequilibrio de clases dentro del conjunto de datos, que se abordó asignando pesos específicos de clase durante el entrenamiento. Los resultados, en términos de precisión de clasificación, fueron muy satisfactorios en todos los enfoques, con los modelos convolucionales y el Bosque Aleatorio alcanzando alrededor del 97-98%, y la Regresión Logística obteniendo un rendimiento ligeramente inferior. En conclusión, los métodos propuestos demostraron ser efectivos para el conjunto de datos seleccionado, y el trabajo futuro puede centrarse en mejorar aún más las técnicas de equilibrio de clases.
Descripción
Este documento presenta un sistema automático para la clasificación de instrumentos musicales a partir de grabaciones de audio. El proyecto aprovecha técnicas de aprendizaje profundo (DL) para lograr su objetivo, explorando tres enfoques de clasificación diferentes basados en distintas representaciones de entrada. El primer método implica la extracción de Coeficientes Cepstrales en Frecuencia Mel (MFCC) de los archivos de audio, que luego se introducen en una red neuronal convolucional bidimensional (Conv2D). El segundo enfoque utiliza imágenes de mel-espectrogramas como entrada para una arquitectura Conv2D similar. El tercer enfoque emplea clasificadores de aprendizaje automático (ML) convencionales, incluyendo Regresión Logística, K-Vecinos Más Cercanos y Bosque Aleatorio, entrenados en vectores de características derivados de MFCC. Para obtener información sobre el comportamiento del modelo DL, se aplicaron técnicas de explicabilidad al modelo Conv2D utilizando mel-espectrogramas, lo que permite una mejor comprensión de cómo la red interpreta características relevantes para la clasificación. Además, se empleó la incrustación estocástica de vecinos distribuidos en t (t-SNE) en los vectores MFCC para visualizar cómo se organizan las clases de instrumentos en el espacio de características. Uno de los principales desafíos encontrados fue el desequilibrio de clases dentro del conjunto de datos, que se abordó asignando pesos específicos de clase durante el entrenamiento. Los resultados, en términos de precisión de clasificación, fueron muy satisfactorios en todos los enfoques, con los modelos convolucionales y el Bosque Aleatorio alcanzando alrededor del 97-98%, y la Regresión Logística obteniendo un rendimiento ligeramente inferior. En conclusión, los métodos propuestos demostraron ser efectivos para el conjunto de datos seleccionado, y el trabajo futuro puede centrarse en mejorar aún más las técnicas de equilibrio de clases.