Informando la estimación de múltiples alturas de piano con polifonía local inferida basada en redes neuronales convolucionales
Autores: Taenzer, Michael; Mimilakis, Stylianos I.; Abeßer, Jakob
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Informando la estimación de múltiples alturas de piano con polifonía local inferida basada en redes neuronales convolucionales
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Método propuesto
Estimación de polifonía
Redes neuronales convolucionales
Transformada Constant-Q
Folded-CQT
Grabaciones de piano
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
En este trabajo, proponemos considerar la información de una polifonía para la estimación de múltiples alturas (MPE) en grabaciones de música de piano. Con ese objetivo, proponemos un método para la estimación local de polifonía (LPE), que se basa en redes neuronales convolucionales (CNN) entrenadas de manera supervisada para predecir explícitamente el grado de polifonía. Investigamos dos representaciones de características como entradas a nuestro método, en particular, la Transformada Constant-Q (CQT) y su extensión reciente, Folded-CQT (F-CQT). Para evaluar el rendimiento de nuestro método, realizamos una serie de experimentos en grabaciones reales y sintéticas de piano basadas en los conjuntos de datos de Sonidos de Piano Alineados con MIDI (MAPS) y Datos Musicales de Saarland (SMD). Comparamos nuestros enfoques con un método de transcripción de piano de última generación informando dicho método con el conocimiento de LPE en una etapa de postprocesamiento. Los resultados experimentales sugieren que el uso de información explícita de LPE puede refinar las predicciones de MPE. Además, se muestra que, en promedio, la representación CQT es preferida sobre F-CQT para LPE.
Descripción
En este trabajo, proponemos considerar la información de una polifonía para la estimación de múltiples alturas (MPE) en grabaciones de música de piano. Con ese objetivo, proponemos un método para la estimación local de polifonía (LPE), que se basa en redes neuronales convolucionales (CNN) entrenadas de manera supervisada para predecir explícitamente el grado de polifonía. Investigamos dos representaciones de características como entradas a nuestro método, en particular, la Transformada Constant-Q (CQT) y su extensión reciente, Folded-CQT (F-CQT). Para evaluar el rendimiento de nuestro método, realizamos una serie de experimentos en grabaciones reales y sintéticas de piano basadas en los conjuntos de datos de Sonidos de Piano Alineados con MIDI (MAPS) y Datos Musicales de Saarland (SMD). Comparamos nuestros enfoques con un método de transcripción de piano de última generación informando dicho método con el conocimiento de LPE en una etapa de postprocesamiento. Los resultados experimentales sugieren que el uso de información explícita de LPE puede refinar las predicciones de MPE. Además, se muestra que, en promedio, la representación CQT es preferida sobre F-CQT para LPE.