Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal
Autores: Zhang, Xulong; Yu, Yi; Gao, Yongwei; Chen, Xi; Li, Wei
Idioma: Inglés
Editor: MDPI
Año: 2020
Acceso abierto
Artículo científico
2020
Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Detección de voz
Voces cantantes
Segmento de audio
Aprendizaje profundo
Red convolucional recurrente a largo plazo
LSTM.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
La detección de la voz cantada o detección vocal es una tarea de clasificación que determina si un segmento de audio dado contiene voces cantadas. Esta tarea juega un papel muy importante en tareas de recuperación de información musical relacionadas con la voz, como la identificación de cantantes. Aunque los humanos pueden distinguir fácilmente entre partes cantadas y no cantadas, sigue siendo muy difícil para las máquinas hacerlo. La mayoría de los métodos existentes se centran en la ingeniería de características de audio con clasificadores, que dependen de la experiencia del diseñador del algoritmo. En los últimos años, el aprendizaje profundo se ha utilizado ampliamente en la audición computacional. Para extraer características esenciales que reflejen el contenido de audio y caractericen el contexto vocal en el dominio del tiempo, este estudio adoptó una red convolucional recurrente a largo plazo (LRCN) para realizar la detección vocal. La capa convolucional en LRCN funciona en la extracción de características, y la capa de memoria a corto y largo plazo (LSTM) puede aprender la relación de secuencia temporal. El preprocesamiento de las voces cantadas y la separación del acompañamiento y el postprocesamiento del suavizado en el dominio del tiempo se combinaron para formar un sistema completo. Experimentos en cinco conjuntos de datos públicos investigaron los impactos de las diferentes características para la fusión, el tamaño del marco y el tamaño del bloque en el aprendizaje de la relación temporal de LRCN, y los efectos del preprocesamiento y postprocesamiento en el rendimiento, y los resultados confirman que el algoritmo propuesto de detección de voz cantada alcanzó el nivel más avanzado en los conjuntos de datos públicos.
Descripción
La detección de la voz cantada o detección vocal es una tarea de clasificación que determina si un segmento de audio dado contiene voces cantadas. Esta tarea juega un papel muy importante en tareas de recuperación de información musical relacionadas con la voz, como la identificación de cantantes. Aunque los humanos pueden distinguir fácilmente entre partes cantadas y no cantadas, sigue siendo muy difícil para las máquinas hacerlo. La mayoría de los métodos existentes se centran en la ingeniería de características de audio con clasificadores, que dependen de la experiencia del diseñador del algoritmo. En los últimos años, el aprendizaje profundo se ha utilizado ampliamente en la audición computacional. Para extraer características esenciales que reflejen el contenido de audio y caractericen el contexto vocal en el dominio del tiempo, este estudio adoptó una red convolucional recurrente a largo plazo (LRCN) para realizar la detección vocal. La capa convolucional en LRCN funciona en la extracción de características, y la capa de memoria a corto y largo plazo (LSTM) puede aprender la relación de secuencia temporal. El preprocesamiento de las voces cantadas y la separación del acompañamiento y el postprocesamiento del suavizado en el dominio del tiempo se combinaron para formar un sistema completo. Experimentos en cinco conjuntos de datos públicos investigaron los impactos de las diferentes características para la fusión, el tamaño del marco y el tamaño del bloque en el aprendizaje de la relación temporal de LRCN, y los efectos del preprocesamiento y postprocesamiento en el rendimiento, y los resultados confirman que el algoritmo propuesto de detección de voz cantada alcanzó el nivel más avanzado en los conjuntos de datos públicos.