Sigmoidal NMFD: Convolutional NMF con activaciones saturantes para la descomposición de mezclas de tambores
Autores: Vande Veire, Len; De Boom, Cedric; De Bie, Tijl
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Sigmoidal NMFD: Convolutional NMF con activaciones saturantes para la descomposición de mezclas de tambores
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Música
Percusión
Algoritmos
Descomposición
NMFD
Plantillas espectrales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 38
Citaciones: Sin citaciones
En muchos tipos de música, la percusión juega un papel esencial para establecer el ritmo y el groove de la música. Los algoritmos que pueden descomponer la señal percusiva en sus componentes constituyentes serían muy útiles, ya que permitirían muchas aplicaciones analíticas y creativas. Este documento describe un método para la descomposición no supervisada de grabaciones percusivas, basado en el algoritmo de factorización de matriz no negativa (NMFD). Dada una grabación de música percusiva, NMFD descubre un diccionario de plantillas espectrales variables en el tiempo y funciones de activación correspondientes, que representan sus sonidos constituyentes y sus posiciones en la mezcla. Observamos, sin embargo, que las funciones de activación descubiertas usando NMFD no muestran el comportamiento esperado tipo impulso para instrumentos percusivos. Por lo tanto, imponemos este comportamiento especificando que las activaciones deben tomar valores binarios: o bien se golpea un instrumento, o no. Con este fin, reescribimos las activaciones como la salida de una función sigmoide, multiplicada por un factor de amplitud por componente. Además, definimos un término de regularización que sesga la descomposición hacia soluciones con activaciones saturadas, lo que lleva al comportamiento binario deseado. Evaluamos varias estrategias de optimización y técnicas diseñadas para evitar mínimos locales pobres. Mostramos que incentivar a las activaciones para que sean binarias conduce efectivamente al comportamiento tipo impulso deseado, y que los componentes resultantes están mejor separados, lo que lleva a descomposiciones más interpretables.
Descripción
En muchos tipos de música, la percusión juega un papel esencial para establecer el ritmo y el groove de la música. Los algoritmos que pueden descomponer la señal percusiva en sus componentes constituyentes serían muy útiles, ya que permitirían muchas aplicaciones analíticas y creativas. Este documento describe un método para la descomposición no supervisada de grabaciones percusivas, basado en el algoritmo de factorización de matriz no negativa (NMFD). Dada una grabación de música percusiva, NMFD descubre un diccionario de plantillas espectrales variables en el tiempo y funciones de activación correspondientes, que representan sus sonidos constituyentes y sus posiciones en la mezcla. Observamos, sin embargo, que las funciones de activación descubiertas usando NMFD no muestran el comportamiento esperado tipo impulso para instrumentos percusivos. Por lo tanto, imponemos este comportamiento especificando que las activaciones deben tomar valores binarios: o bien se golpea un instrumento, o no. Con este fin, reescribimos las activaciones como la salida de una función sigmoide, multiplicada por un factor de amplitud por componente. Además, definimos un término de regularización que sesga la descomposición hacia soluciones con activaciones saturadas, lo que lleva al comportamiento binario deseado. Evaluamos varias estrategias de optimización y técnicas diseñadas para evitar mínimos locales pobres. Mostramos que incentivar a las activaciones para que sean binarias conduce efectivamente al comportamiento tipo impulso deseado, y que los componentes resultantes están mejor separados, lo que lleva a descomposiciones más interpretables.