3d-dcdae: método de aprendizaje de representaciones latentes de música no supervisado basado en un autoencoder de denoising convolucional 3d profundo para clasificación de género musical
Autores: Qiu, Lvyang; Li, Shuyu; Sung, Yunsick
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
3d-dcdae: método de aprendizaje de representaciones latentes de música no supervisado basado en un autoencoder de denoising convolucional 3d profundo para clasificación de género musical
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Representación musical latente
Aprendizaje no supervisado
Autoencoder de eliminación de ruido convolucional 3D
Clasificación de género musical
Datos no etiquetados
Archivos MIDI
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 37
Citaciones: Sin citaciones
Con datos de música no etiquetados ampliamente disponibles, es necesario construir un extractor de representación musical latente no supervisado para mejorar el rendimiento de los modelos de clasificación. Este documento propone un método de aprendizaje de representación musical latente no supervisado basado en un autoencoder de eliminación de ruido convolucional 3D profundo (3D-DCDAE) para la clasificación de género musical, que tiene como objetivo aprender representaciones comunes a partir de una gran cantidad de datos no etiquetados para mejorar el rendimiento de la clasificación de género musical. Específicamente, se aplican archivos MIDI no etiquetados a 3D-DCDAE para extraer representaciones latentes mediante la eliminación de ruido y la reconstrucción de los datos de entrada. A continuación, se utiliza un decodificador para ayudar en el entrenamiento de 3D-DCDAE. Después del entrenamiento de 3D-DCDAE, el decodificador es reemplazado por un clasificador de perceptrón multicapa (MLP) para la clasificación de género musical. A través del método de aprendizaje de representaciones latentes no supervisado, los datos no etiquetados pueden aplicarse a tareas de clasificación para resolver el problema de limitar el rendimiento de la clasificación debido a la falta de datos etiquetados. Además, el 3D-DCDAE no supervisado puede considerar la estructura musicológica para ampliar la comprensión del campo musical y mejorar el rendimiento en la clasificación de género musical. En los experimentos, que utilizaron el conjunto de datos MIDI de Lakh, se utilizó una gran cantidad de datos no etiquetados para entrenar el 3D-DCDAE, obteniendo una precisión de eliminación de ruido y reconstrucción de aproximadamente el 98%. Se utilizó una pequeña cantidad de datos etiquetados para entrenar un modelo de clasificación que consiste en el 3D-DCDAE entrenado y el clasificador MLP, logrando una precisión de clasificación de aproximadamente el 88%. Los resultados experimentales muestran que el modelo logra un rendimiento de vanguardia y supera significativamente a otros métodos para la clasificación de género musical con solo una pequeña cantidad de datos etiquetados.
Descripción
Con datos de música no etiquetados ampliamente disponibles, es necesario construir un extractor de representación musical latente no supervisado para mejorar el rendimiento de los modelos de clasificación. Este documento propone un método de aprendizaje de representación musical latente no supervisado basado en un autoencoder de eliminación de ruido convolucional 3D profundo (3D-DCDAE) para la clasificación de género musical, que tiene como objetivo aprender representaciones comunes a partir de una gran cantidad de datos no etiquetados para mejorar el rendimiento de la clasificación de género musical. Específicamente, se aplican archivos MIDI no etiquetados a 3D-DCDAE para extraer representaciones latentes mediante la eliminación de ruido y la reconstrucción de los datos de entrada. A continuación, se utiliza un decodificador para ayudar en el entrenamiento de 3D-DCDAE. Después del entrenamiento de 3D-DCDAE, el decodificador es reemplazado por un clasificador de perceptrón multicapa (MLP) para la clasificación de género musical. A través del método de aprendizaje de representaciones latentes no supervisado, los datos no etiquetados pueden aplicarse a tareas de clasificación para resolver el problema de limitar el rendimiento de la clasificación debido a la falta de datos etiquetados. Además, el 3D-DCDAE no supervisado puede considerar la estructura musicológica para ampliar la comprensión del campo musical y mejorar el rendimiento en la clasificación de género musical. En los experimentos, que utilizaron el conjunto de datos MIDI de Lakh, se utilizó una gran cantidad de datos no etiquetados para entrenar el 3D-DCDAE, obteniendo una precisión de eliminación de ruido y reconstrucción de aproximadamente el 98%. Se utilizó una pequeña cantidad de datos etiquetados para entrenar un modelo de clasificación que consiste en el 3D-DCDAE entrenado y el clasificador MLP, logrando una precisión de clasificación de aproximadamente el 88%. Los resultados experimentales muestran que el modelo logra un rendimiento de vanguardia y supera significativamente a otros métodos para la clasificación de género musical con solo una pequeña cantidad de datos etiquetados.