logo móvil
Contáctanos

Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento

Autores: Qiao, Xiaoman; Luo, Min; Shao, Fengjing; Sui, Yi; Yin, Xiaowei; Sun, Rencheng

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estudio
Vocal
Acompañamiento
Recuperación de información musical
Modelos de aprendizaje profundo
Conv-TasNet

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones


Descripción
El estudio de separar la voz del acompañamiento en música de un solo canal es fundamental y crítico en el campo de la recuperación de información musical (MIR). Los métodos de separación de música convencionales suelen basarse en las características de dominio de frecuencia de las señales musicales, y la información de fase de la música se pierde durante la descomposición tiempo-frecuencia. En los últimos años, los modelos de aprendizaje profundo basados en señales de tiempo de habla, como Conv-TasNet, han mostrado un gran potencial. Sin embargo, para el problema de separación de voz y acompañamiento, no existe un modelo de separación de música adecuado en el dominio de tiempo. Dado que la voz y el acompañamiento en la música tienen una mayor sinergia y similitud que las voces de dos hablantes en el habla, separar la voz y el acompañamiento utilizando un modelo de separación de habla no es ideal. Basándonos en esto, proponemos VAT-SNet; este optimiza la estructura de red de Conv-TasNet, que establece una convolución a nivel de muestra en el codificador y decodificador para preservar características acústicas profundas, y toma la incrustación vocal y la incrustación de acompañamiento generadas por la red auxiliar como referencias para mejorar la pureza de la separación de la voz y el acompañamiento. Los resultados de conjuntos de datos de música públicos muestran que la calidad de la voz y el acompañamiento separados por VAT-SNet se mejora en GSNR, GSIR y GSAR en comparación con Conv-TasNet y métodos de separación convencionales, como U-Net, SH-4stack, etc.

Otros recursos que podrían interesarte

Temas Virtualpro