Extracción de melodía vocal a través de separación de voz cantada basada en HRNet y estimación de F0 basada en codificador-decodificador
Autores: Gao, Yongwei; Zhang, Xulong; Li, Wei
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Extracción de melodía vocal a través de separación de voz cantada basada en HRNet y estimación de F0 basada en codificador-decodificador
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Extracción de melodía vocal
Recuperación de información musical
Frecuencia fundamental
Voz cantada
Interferencia de acompañamiento
Separación basada en HRNet
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
La extracción de la melodía vocal es una tarea importante y desafiante en la recuperación de información musical. Una de las principales dificultades es que, la mayor parte del tiempo, varios instrumentos y voces cantantes se mezclan de acuerdo con la estructura armónica, lo que dificulta identificar la frecuencia fundamental (F0) de una voz cantante. Por lo tanto, reducir la interferencia del acompañamiento es beneficioso para la estimación del tono de la voz cantante. En este artículo, primero adoptamos una red de alta resolución (HRNet) para separar las voces de la música polifónica, luego diseñamos una red codificador-decodificador para estimar los valores de F0 vocal. Los resultados de los experimentos demuestran la efectividad del método de separación de voces cantantes basado en HRNet en la reducción de la interferencia del acompañamiento en la extracción de la melodía vocal, y el sistema propuesto de extracción de melodía vocal (VME) supera a otros algoritmos de vanguardia en la mayoría de los casos.
Descripción
La extracción de la melodía vocal es una tarea importante y desafiante en la recuperación de información musical. Una de las principales dificultades es que, la mayor parte del tiempo, varios instrumentos y voces cantantes se mezclan de acuerdo con la estructura armónica, lo que dificulta identificar la frecuencia fundamental (F0) de una voz cantante. Por lo tanto, reducir la interferencia del acompañamiento es beneficioso para la estimación del tono de la voz cantante. En este artículo, primero adoptamos una red de alta resolución (HRNet) para separar las voces de la música polifónica, luego diseñamos una red codificador-decodificador para estimar los valores de F0 vocal. Los resultados de los experimentos demuestran la efectividad del método de separación de voces cantantes basado en HRNet en la reducción de la interferencia del acompañamiento en la extracción de la melodía vocal, y el sistema propuesto de extracción de melodía vocal (VME) supera a otros algoritmos de vanguardia en la mayoría de los casos.