logo móvil
Contáctanos

Un análisis comparativo de métodos de aprendizaje profundo para el análisis de timbre en la transcripción automática polifónica de música

Autores: Hernandez-Olivan, Carlos; Zay Pinilla, Ignacio; Hernandez-Lopez, Carlos; Beltran, Jose R.

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un análisis comparativo de métodos de aprendizaje profundo para el análisis de timbre en la transcripción automática polifónica de música


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transcripción automática de música
Timbre
Redes neuronales
Transcripción monofónica
Transcripción polifónica
Redes neuronales profundas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 56

Citaciones: Sin citaciones


Descripción
La transcripción automática de música (AMT) es un problema crítico en el campo de la recuperación de información musical (MIR). Cuando AMT se enfrenta a redes neuronales profundas, la variedad de timbres de diferentes instrumentos puede ser un problema que aún no se ha estudiado en profundidad. El objetivo de este trabajo es abordar la transcripción de AMT analizando cómo el timbre afecta la transcripción monofónica en un primer enfoque basado en la red neuronal CREPE y luego mejorar los resultados realizando transcripción de música polifónica con diferentes timbres con un segundo enfoque basado en el modelo Deep Salience que realiza transcripción polifónica basada en la Transformada Constant-Q. Los resultados del primer método muestran que el timbre y la envolvente de los ataques tienen un alto impacto en los resultados de AMT y el segundo método muestra que el modelo desarrollado es menos dependiente de la fuerza de los ataques que otros modelos de última generación que tratan con AMT en sonidos de piano como Google Magenta Onset and Frames (OaF). Nuestro modelo de transcripción polifónica para instrumentos no pianos supera al modelo de última generación, como en el caso de instrumentos de bajo, que tiene un F-score de 0.9516 frente a 0.7102. En nuestro último experimento también mostramos cómo agregar un detector de ataques a nuestro modelo puede superar los resultados dados en este trabajo.

Otros recursos que podrían interesarte

Temas Virtualpro