Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento

Autores: Qiao, Xiaoman; Luo, Min; Shao, Fengjing; Sui, Yi; Yin, Xiaowei; Sun, Rencheng

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Vat-snet: un red de separación musical convolucional basado en características de dominio temporal de la voz y el acompañamiento

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Estudio

Vocal

Acompañamiento

Recuperación de información musical

Modelos de aprendizaje profundo

Conv-TasNet

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 43

Citaciones: Sin citaciones

El estudio de separar la voz del acompañamiento en música de un solo canal es fundamental y crítico en el campo de la recuperación de información musical (MIR). Los métodos de separación de música convencionales suelen basarse en las características de dominio de frecuencia de las señales musicales, y la información de fase de la música se pierde durante la descomposición tiempo-frecuencia. En los últimos años, los modelos de aprendizaje profundo basados en señales de tiempo de habla, como Conv-TasNet, han mostrado un gran potencial. Sin embargo, para el problema de separación de voz y acompañamiento, no existe un modelo de separación de música adecuado en el dominio de tiempo. Dado que la voz y el acompañamiento en la música tienen una mayor sinergia y similitud que las voces de dos hablantes en el habla, separar la voz y el acompañamiento utilizando un modelo de separación de habla no es ideal. Basándonos en esto, proponemos VAT-SNet; este optimiza la estructura de red de Conv-TasNet, que establece una convolución a nivel de muestra en el codificador y decodificador para preservar características acústicas profundas, y toma la incrustación vocal y la incrustación de acompañamiento generadas por la red auxiliar como referencias para mejorar la pureza de la separación de la voz y el acompañamiento. Los resultados de conjuntos de datos de música públicos muestran que la calidad de la voz y el acompañamiento separados por VAT-SNet se mejora en GSNR, GSIR y GSAR en comparación con Conv-TasNet y métodos de separación convencionales, como U-Net, SH-4stack, etc.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro