logo móvil
Contáctanos

Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas

Autores: Roebel, Axel; Bous, Frederik

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Espectrograma mel
Vocoders neuronales
Generación de voz
Parametrización de señales
Producción de audio
Complejidad computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El uso del espectrograma mel como parametrización de señal para la generación de voz es bastante reciente y está vinculado al desarrollo de vocoders neuronales. Estos son redes neuronales profundas que permiten reconstruir habla de alta calidad a partir de un espectrograma mel dado. Aunque inicialmente se desarrollaron para la síntesis de voz, ahora los vocoders neuronales también se han estudiado en el contexto de la manipulación de atributos de voz, abriendo nuevos medios para el procesamiento de voz en la producción de audio. Sin embargo, para poder aplicar vocoders neuronales en aplicaciones del mundo real, se deben abordar dos problemas: (1) Para soportar su uso en estaciones de trabajo de audio profesionales, la complejidad computacional debe ser pequeña, (2) el vocoder necesita soportar una gran variedad de hablantes, diferencias en las cualidades de voz y un amplio rango de intensidades que se pueden encontrar durante la producción de audio. En este contexto, el presente estudio proporcionará una descripción detallada del WaveNet excitado por bandas múltiples, un vocoder neuronal completamente convolucional construido en torno a bloques de procesamiento de señales. Evaluará el rendimiento del vocoder cuando se entrena en una variedad de bases de datos de múltiples hablantes y cantantes, incluyendo una evaluación experimental del vocoder neuronal entrenado en voces habladas y cantadas. Abordando el problema de la variación de intensidad, el estudio introducirá un nuevo esquema de normalización de señal adaptativa que permite una compensación robusta para las variaciones de ganancia dinámica y estática. Las evaluaciones se realizan utilizando medidas objetivas y una serie de pruebas perceptuales que incluyen diferentes algoritmos de vocoder neuronal conocidos en la literatura. Los resultados confirman que el vocoder propuesto se compara favorablemente con el estado del arte en su capacidad para generalizar a voces y cualidades de voz no vistas. Se discutirán los desafíos restantes.

Otros recursos que podrían interesarte

Temas Virtualpro