Clasificación de Instrumentos Explicables: De Modelos de Vector de Media MFCC a CNNs sobre MFCC y Mel-Spectrogramas con Perspectivas de t-SNE y Grad-CAM

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Clasificación de Instrumentos Explicables: De Modelos de Vector de Media MFCC a CNNs sobre MFCC y Mel-Spectrogramas con Perspectivas de t-SNE y Grad-CAM

Autores: Senatori, Tommaso; Nardone, Daniela; Lo Giudice, Michele; Salvini, Alessandro

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

Clasificación de Instrumentos Explicables: De Modelos de Vector de Media MFCC a CNNs sobre MFCC y Mel-Spectrogramas con Perspectivas de t-SNE y Grad-CAM

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Clasificación

Aprendizaje profundo

Grabaciones de audio

Conv2D

Vectores de características

Aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Este documento presenta un sistema automático para la clasificación de instrumentos musicales a partir de grabaciones de audio. El proyecto aprovecha técnicas de aprendizaje profundo (DL) para lograr su objetivo, explorando tres enfoques de clasificación diferentes basados en distintas representaciones de entrada. El primer método implica la extracción de Coeficientes Cepstrales en Frecuencia Mel (MFCC) de los archivos de audio, que luego se introducen en una red neuronal convolucional bidimensional (Conv2D). El segundo enfoque utiliza imágenes de mel-espectrogramas como entrada para una arquitectura Conv2D similar. El tercer enfoque emplea clasificadores de aprendizaje automático (ML) convencionales, incluyendo Regresión Logística, K-Vecinos Más Cercanos y Bosque Aleatorio, entrenados en vectores de características derivados de MFCC. Para obtener información sobre el comportamiento del modelo DL, se aplicaron técnicas de explicabilidad al modelo Conv2D utilizando mel-espectrogramas, lo que permite una mejor comprensión de cómo la red interpreta características relevantes para la clasificación. Además, se empleó la incrustación estocástica de vecinos distribuidos en t (t-SNE) en los vectores MFCC para visualizar cómo se organizan las clases de instrumentos en el espacio de características. Uno de los principales desafíos encontrados fue el desequilibrio de clases dentro del conjunto de datos, que se abordó asignando pesos específicos de clase durante el entrenamiento. Los resultados, en términos de precisión de clasificación, fueron muy satisfactorios en todos los enfoques, con los modelos convolucionales y el Bosque Aleatorio alcanzando alrededor del 97-98%, y la Regresión Logística obteniendo un rendimiento ligeramente inferior. En conclusión, los métodos propuestos demostraron ser efectivos para el conjunto de datos seleccionado, y el trabajo futuro puede centrarse en mejorar aún más las técnicas de equilibrio de clases.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro