logo móvil
Contáctanos

Sigmoidal NMFD: Convolutional NMF con activaciones saturantes para la descomposición de mezclas de tambores

Autores: Vande Veire, Len; De Boom, Cedric; De Bie, Tijl

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Sigmoidal NMFD: Convolutional NMF con activaciones saturantes para la descomposición de mezclas de tambores


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Música
Percusión
Algoritmos
Descomposición
NMFD
Plantillas espectrales

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 38

Citaciones: Sin citaciones


Descripción
En muchos tipos de música, la percusión juega un papel esencial para establecer el ritmo y el groove de la música. Los algoritmos que pueden descomponer la señal percusiva en sus componentes constituyentes serían muy útiles, ya que permitirían muchas aplicaciones analíticas y creativas. Este documento describe un método para la descomposición no supervisada de grabaciones percusivas, basado en el algoritmo de factorización de matriz no negativa (NMFD). Dada una grabación de música percusiva, NMFD descubre un diccionario de plantillas espectrales variables en el tiempo y funciones de activación correspondientes, que representan sus sonidos constituyentes y sus posiciones en la mezcla. Observamos, sin embargo, que las funciones de activación descubiertas usando NMFD no muestran el comportamiento esperado tipo impulso para instrumentos percusivos. Por lo tanto, imponemos este comportamiento especificando que las activaciones deben tomar valores binarios: o bien se golpea un instrumento, o no. Con este fin, reescribimos las activaciones como la salida de una función sigmoide, multiplicada por un factor de amplitud por componente. Además, definimos un término de regularización que sesga la descomposición hacia soluciones con activaciones saturadas, lo que lleva al comportamiento binario deseado. Evaluamos varias estrategias de optimización y técnicas diseñadas para evitar mínimos locales pobres. Mostramos que incentivar a las activaciones para que sean binarias conduce efectivamente al comportamiento tipo impulso deseado, y que los componentes resultantes están mejor separados, lo que lleva a descomposiciones más interpretables.

Otros recursos que podrían interesarte

Temas Virtualpro