logo móvil
Contáctanos

Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal

Autores: Zhang, Xulong; Yu, Yi; Gao, Yongwei; Chen, Xi; Li, Wei

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico
2020

Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de voz
Voces cantantes
Segmento de audio
Aprendizaje profundo
Red convolucional recurrente a largo plazo
LSTM.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones


Descripción
La detección de la voz cantada o detección vocal es una tarea de clasificación que determina si un segmento de audio dado contiene voces cantadas. Esta tarea juega un papel muy importante en tareas de recuperación de información musical relacionadas con la voz, como la identificación de cantantes. Aunque los humanos pueden distinguir fácilmente entre partes cantadas y no cantadas, sigue siendo muy difícil para las máquinas hacerlo. La mayoría de los métodos existentes se centran en la ingeniería de características de audio con clasificadores, que dependen de la experiencia del diseñador del algoritmo. En los últimos años, el aprendizaje profundo se ha utilizado ampliamente en la audición computacional. Para extraer características esenciales que reflejen el contenido de audio y caractericen el contexto vocal en el dominio del tiempo, este estudio adoptó una red convolucional recurrente a largo plazo (LRCN) para realizar la detección vocal. La capa convolucional en LRCN funciona en la extracción de características, y la capa de memoria a corto y largo plazo (LSTM) puede aprender la relación de secuencia temporal. El preprocesamiento de las voces cantadas y la separación del acompañamiento y el postprocesamiento del suavizado en el dominio del tiempo se combinaron para formar un sistema completo. Experimentos en cinco conjuntos de datos públicos investigaron los impactos de las diferentes características para la fusión, el tamaño del marco y el tamaño del bloque en el aprendizaje de la relación temporal de LRCN, y los efectos del preprocesamiento y postprocesamiento en el rendimiento, y los resultados confirman que el algoritmo propuesto de detección de voz cantada alcanzó el nivel más avanzado en los conjuntos de datos públicos.

Otros recursos que podrían interesarte

Temas Virtualpro