logo móvil
Contáctanos

Dbtmpe: enfoque de codificador predictivo enmascarado basado en transformadores bidireccionales profundos para la clasificación de géneros musicales

Autores: Qiu, Lvyang; Li, Shuyu; Sung, Yunsick

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Dbtmpe: enfoque de codificador predictivo enmascarado basado en transformadores bidireccionales profundos para la clasificación de géneros musicales


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Música
Datos
Clasificación
MIDI
Pitch2vec
MPE

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
La música es un tipo de datos de series temporales. A medida que el tamaño de los datos aumenta, es un desafío construir sistemas robustos de clasificación de géneros musicales a partir de grandes cantidades de datos musicales. Los sistemas robustos requieren grandes cantidades de datos musicales etiquetados, lo que implica esfuerzos intensivos en tiempo y trabajo de etiquetado de datos y conocimiento experto. Este documento propone un método de preprocesamiento de la interfaz digital de instrumentos musicales (MIDI), Pitch to Vector (Pitch2vec), y un método de codificador predictivo enmascarado basado en transformadores bidireccionales profundos (MPE) para la clasificación de géneros musicales. Los archivos MIDI se consideran como entrada. Los archivos MIDI se convierten en la secuencia de vectores por Pitch2vec antes de ser introducidos en el MPE. Mediante el aprendizaje no supervisado, el MPE basado en transformadores bidireccionales profundos está diseñado para extraer representaciones bidireccionales automáticamente, que son una perspicacia musicológica. En contraste con otros modelos de aprendizaje profundo, como los modelos basados en redes neuronales recurrentes (RNN), el método MPE permite la paralelización en pasos de tiempo, lo que conduce a un entrenamiento más rápido. Para evaluar el rendimiento del método propuesto, se realizaron experimentos en el conjunto de datos de música MIDI de Lakh. Durante el entrenamiento de MPE, se utilizaron aproximadamente 400,000 segmentos MIDI para el MPE, para los cuales la tasa de precisión de recuperación alcanzó el 97%. En la tarea de clasificación de géneros musicales, la tasa de precisión y otros indicadores del método propuesto fueron superiores al 94%. Los resultados experimentales indican que el método propuesto mejora el rendimiento de clasificación en comparación con los modelos de última generación.

Otros recursos que podrían interesarte

Temas Virtualpro