Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento
Autores: Qiao, Xiaoman; Luo, Min; Shao, Fengjing; Sui, Yi; Yin, Xiaowei; Sun, Rencheng
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Estudio
Vocal
Acompañamiento
Recuperación de información musical
Modelos de aprendizaje profundo
Conv-TasNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 43
Citaciones: Sin citaciones
El estudio de separar la voz del acompañamiento en música de un solo canal es fundamental y crítico en el campo de la recuperación de información musical (MIR). Los métodos de separación de música convencionales suelen basarse en las características de dominio de frecuencia de las señales musicales, y la información de fase de la música se pierde durante la descomposición tiempo-frecuencia. En los últimos años, los modelos de aprendizaje profundo basados en señales de tiempo de habla, como Conv-TasNet, han mostrado un gran potencial. Sin embargo, para el problema de separación de voz y acompañamiento, no existe un modelo de separación de música adecuado en el dominio de tiempo. Dado que la voz y el acompañamiento en la música tienen una mayor sinergia y similitud que las voces de dos hablantes en el habla, separar la voz y el acompañamiento utilizando un modelo de separación de habla no es ideal. Basándonos en esto, proponemos VAT-SNet; este optimiza la estructura de red de Conv-TasNet, que establece una convolución a nivel de muestra en el codificador y decodificador para preservar características acústicas profundas, y toma la incrustación vocal y la incrustación de acompañamiento generadas por la red auxiliar como referencias para mejorar la pureza de la separación de la voz y el acompañamiento. Los resultados de conjuntos de datos de música públicos muestran que la calidad de la voz y el acompañamiento separados por VAT-SNet se mejora en GSNR, GSIR y GSAR en comparación con Conv-TasNet y métodos de separación convencionales, como U-Net, SH-4stack, etc.
Descripción
El estudio de separar la voz del acompañamiento en música de un solo canal es fundamental y crítico en el campo de la recuperación de información musical (MIR). Los métodos de separación de música convencionales suelen basarse en las características de dominio de frecuencia de las señales musicales, y la información de fase de la música se pierde durante la descomposición tiempo-frecuencia. En los últimos años, los modelos de aprendizaje profundo basados en señales de tiempo de habla, como Conv-TasNet, han mostrado un gran potencial. Sin embargo, para el problema de separación de voz y acompañamiento, no existe un modelo de separación de música adecuado en el dominio de tiempo. Dado que la voz y el acompañamiento en la música tienen una mayor sinergia y similitud que las voces de dos hablantes en el habla, separar la voz y el acompañamiento utilizando un modelo de separación de habla no es ideal. Basándonos en esto, proponemos VAT-SNet; este optimiza la estructura de red de Conv-TasNet, que establece una convolución a nivel de muestra en el codificador y decodificador para preservar características acústicas profundas, y toma la incrustación vocal y la incrustación de acompañamiento generadas por la red auxiliar como referencias para mejorar la pureza de la separación de la voz y el acompañamiento. Los resultados de conjuntos de datos de música públicos muestran que la calidad de la voz y el acompañamiento separados por VAT-SNet se mejora en GSNR, GSIR y GSAR en comparación con Conv-TasNet y métodos de separación convencionales, como U-Net, SH-4stack, etc.