Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal

Autores: Zhang, Xulong; Yu, Yi; Gao, Yongwei; Chen, Xi; Li, Wei

Idioma: Inglés

Editor: MDPI

Año: 2020

Descargar PDF

Acceso abierto

Artículo científico

2020

Investigación sobre detección de voz cantada basada en una red convolucional recurrente a largo plazo con separación vocal y suavizado temporal

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Detección de voz

Voces cantantes

Segmento de audio

Aprendizaje profundo

Red convolucional recurrente a largo plazo

LSTM.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 21

Citaciones: Sin citaciones

La detección de la voz cantada o detección vocal es una tarea de clasificación que determina si un segmento de audio dado contiene voces cantadas. Esta tarea juega un papel muy importante en tareas de recuperación de información musical relacionadas con la voz, como la identificación de cantantes. Aunque los humanos pueden distinguir fácilmente entre partes cantadas y no cantadas, sigue siendo muy difícil para las máquinas hacerlo. La mayoría de los métodos existentes se centran en la ingeniería de características de audio con clasificadores, que dependen de la experiencia del diseñador del algoritmo. En los últimos años, el aprendizaje profundo se ha utilizado ampliamente en la audición computacional. Para extraer características esenciales que reflejen el contenido de audio y caractericen el contexto vocal en el dominio del tiempo, este estudio adoptó una red convolucional recurrente a largo plazo (LRCN) para realizar la detección vocal. La capa convolucional en LRCN funciona en la extracción de características, y la capa de memoria a corto y largo plazo (LSTM) puede aprender la relación de secuencia temporal. El preprocesamiento de las voces cantadas y la separación del acompañamiento y el postprocesamiento del suavizado en el dominio del tiempo se combinaron para formar un sistema completo. Experimentos en cinco conjuntos de datos públicos investigaron los impactos de las diferentes características para la fusión, el tamaño del marco y el tamaño del bloque en el aprendizaje de la relación temporal de LRCN, y los efectos del preprocesamiento y postprocesamiento en el rendimiento, y los resultados confirman que el algoritmo propuesto de detección de voz cantada alcanzó el nivel más avanzado en los conjuntos de datos públicos.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro