Un análisis comparativo de métodos de aprendizaje profundo para el análisis de timbre en la transcripción automática polifónica de música
Autores: Hernandez-Olivan, Carlos; Zay Pinilla, Ignacio; Hernandez-Lopez, Carlos; Beltran, Jose R.
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un análisis comparativo de métodos de aprendizaje profundo para el análisis de timbre en la transcripción automática polifónica de música
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transcripción automática de música
Timbre
Redes neuronales
Transcripción monofónica
Transcripción polifónica
Redes neuronales profundas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 56
Citaciones: Sin citaciones
La transcripción automática de música (AMT) es un problema crítico en el campo de la recuperación de información musical (MIR). Cuando AMT se enfrenta a redes neuronales profundas, la variedad de timbres de diferentes instrumentos puede ser un problema que aún no se ha estudiado en profundidad. El objetivo de este trabajo es abordar la transcripción de AMT analizando cómo el timbre afecta la transcripción monofónica en un primer enfoque basado en la red neuronal CREPE y luego mejorar los resultados realizando transcripción de música polifónica con diferentes timbres con un segundo enfoque basado en el modelo Deep Salience que realiza transcripción polifónica basada en la Transformada Constant-Q. Los resultados del primer método muestran que el timbre y la envolvente de los ataques tienen un alto impacto en los resultados de AMT y el segundo método muestra que el modelo desarrollado es menos dependiente de la fuerza de los ataques que otros modelos de última generación que tratan con AMT en sonidos de piano como Google Magenta Onset and Frames (OaF). Nuestro modelo de transcripción polifónica para instrumentos no pianos supera al modelo de última generación, como en el caso de instrumentos de bajo, que tiene un F-score de 0.9516 frente a 0.7102. En nuestro último experimento también mostramos cómo agregar un detector de ataques a nuestro modelo puede superar los resultados dados en este trabajo.
Descripción
La transcripción automática de música (AMT) es un problema crítico en el campo de la recuperación de información musical (MIR). Cuando AMT se enfrenta a redes neuronales profundas, la variedad de timbres de diferentes instrumentos puede ser un problema que aún no se ha estudiado en profundidad. El objetivo de este trabajo es abordar la transcripción de AMT analizando cómo el timbre afecta la transcripción monofónica en un primer enfoque basado en la red neuronal CREPE y luego mejorar los resultados realizando transcripción de música polifónica con diferentes timbres con un segundo enfoque basado en el modelo Deep Salience que realiza transcripción polifónica basada en la Transformada Constant-Q. Los resultados del primer método muestran que el timbre y la envolvente de los ataques tienen un alto impacto en los resultados de AMT y el segundo método muestra que el modelo desarrollado es menos dependiente de la fuerza de los ataques que otros modelos de última generación que tratan con AMT en sonidos de piano como Google Magenta Onset and Frames (OaF). Nuestro modelo de transcripción polifónica para instrumentos no pianos supera al modelo de última generación, como en el caso de instrumentos de bajo, que tiene un F-score de 0.9516 frente a 0.7102. En nuestro último experimento también mostramos cómo agregar un detector de ataques a nuestro modelo puede superar los resultados dados en este trabajo.