Transcripción de bajo de jazz utilizando una arquitectura U-Net
Autores: Abeßer, Jakob; Müller, Meinard
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Transcripción de bajo de jazz utilizando una arquitectura U-Net
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Propuesto
U-net
Transcripción de bajo
Aumento de datos
Conexión de salto
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
En este documento, adaptamos una arquitectura de red neuronal profunda U-net propuesta recientemente de la melodía a la transcripción de bajo. Investigamos el desplazamiento de tono y la ecualización aleatoria como técnicas de aumento de datos. En un estudio de importancia de parámetros, estudiamos la influencia de la estrategia de conexión de salto entre las capas de codificador y decodificador, la estrategia de aumento de datos, así como la capacidad general del modelo en el rendimiento del sistema. Utilizando un conjunto de entrenamiento que abarca varios géneros musicales y un conjunto de validación que incluye grabaciones de ensemble de jazz, obtenemos el mejor rendimiento de transcripción para una versión reducida del algoritmo de referencia combinado con conexiones de salto que transfieren activaciones intermedias entre el codificador y el decodificador. El método basado en U-net supera a los algoritmos de transcripción de bajo previos basados en conocimientos y datos en alrededor de cinco puntos porcentuales en precisión general. Además de una mejora en la estimación de tono, el rendimiento de la estimación de la entonación está claramente mejorado.
Descripción
En este documento, adaptamos una arquitectura de red neuronal profunda U-net propuesta recientemente de la melodía a la transcripción de bajo. Investigamos el desplazamiento de tono y la ecualización aleatoria como técnicas de aumento de datos. En un estudio de importancia de parámetros, estudiamos la influencia de la estrategia de conexión de salto entre las capas de codificador y decodificador, la estrategia de aumento de datos, así como la capacidad general del modelo en el rendimiento del sistema. Utilizando un conjunto de entrenamiento que abarca varios géneros musicales y un conjunto de validación que incluye grabaciones de ensemble de jazz, obtenemos el mejor rendimiento de transcripción para una versión reducida del algoritmo de referencia combinado con conexiones de salto que transfieren activaciones intermedias entre el codificador y el decodificador. El método basado en U-net supera a los algoritmos de transcripción de bajo previos basados en conocimientos y datos en alrededor de cinco puntos porcentuales en precisión general. Además de una mejora en la estimación de tono, el rendimiento de la estimación de la entonación está claramente mejorado.