Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas
Autores: Roebel, Axel; Bous, Frederik
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Espectrograma mel
Vocoders neuronales
Generación de voz
Parametrización de señales
Producción de audio
Complejidad computacional
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El uso del espectrograma mel como parametrización de señal para la generación de voz es bastante reciente y está vinculado al desarrollo de vocoders neuronales. Estos son redes neuronales profundas que permiten reconstruir habla de alta calidad a partir de un espectrograma mel dado. Aunque inicialmente se desarrollaron para la síntesis de voz, ahora los vocoders neuronales también se han estudiado en el contexto de la manipulación de atributos de voz, abriendo nuevos medios para el procesamiento de voz en la producción de audio. Sin embargo, para poder aplicar vocoders neuronales en aplicaciones del mundo real, se deben abordar dos problemas: (1) Para soportar su uso en estaciones de trabajo de audio profesionales, la complejidad computacional debe ser pequeña, (2) el vocoder necesita soportar una gran variedad de hablantes, diferencias en las cualidades de voz y un amplio rango de intensidades que se pueden encontrar durante la producción de audio. En este contexto, el presente estudio proporcionará una descripción detallada del WaveNet excitado por bandas múltiples, un vocoder neuronal completamente convolucional construido en torno a bloques de procesamiento de señales. Evaluará el rendimiento del vocoder cuando se entrena en una variedad de bases de datos de múltiples hablantes y cantantes, incluyendo una evaluación experimental del vocoder neuronal entrenado en voces habladas y cantadas. Abordando el problema de la variación de intensidad, el estudio introducirá un nuevo esquema de normalización de señal adaptativa que permite una compensación robusta para las variaciones de ganancia dinámica y estática. Las evaluaciones se realizan utilizando medidas objetivas y una serie de pruebas perceptuales que incluyen diferentes algoritmos de vocoder neuronal conocidos en la literatura. Los resultados confirman que el vocoder propuesto se compara favorablemente con el estado del arte en su capacidad para generalizar a voces y cualidades de voz no vistas. Se discutirán los desafíos restantes.
Descripción
El uso del espectrograma mel como parametrización de señal para la generación de voz es bastante reciente y está vinculado al desarrollo de vocoders neuronales. Estos son redes neuronales profundas que permiten reconstruir habla de alta calidad a partir de un espectrograma mel dado. Aunque inicialmente se desarrollaron para la síntesis de voz, ahora los vocoders neuronales también se han estudiado en el contexto de la manipulación de atributos de voz, abriendo nuevos medios para el procesamiento de voz en la producción de audio. Sin embargo, para poder aplicar vocoders neuronales en aplicaciones del mundo real, se deben abordar dos problemas: (1) Para soportar su uso en estaciones de trabajo de audio profesionales, la complejidad computacional debe ser pequeña, (2) el vocoder necesita soportar una gran variedad de hablantes, diferencias en las cualidades de voz y un amplio rango de intensidades que se pueden encontrar durante la producción de audio. En este contexto, el presente estudio proporcionará una descripción detallada del WaveNet excitado por bandas múltiples, un vocoder neuronal completamente convolucional construido en torno a bloques de procesamiento de señales. Evaluará el rendimiento del vocoder cuando se entrena en una variedad de bases de datos de múltiples hablantes y cantantes, incluyendo una evaluación experimental del vocoder neuronal entrenado en voces habladas y cantadas. Abordando el problema de la variación de intensidad, el estudio introducirá un nuevo esquema de normalización de señal adaptativa que permite una compensación robusta para las variaciones de ganancia dinámica y estática. Las evaluaciones se realizan utilizando medidas objetivas y una serie de pruebas perceptuales que incluyen diferentes algoritmos de vocoder neuronal conocidos en la literatura. Los resultados confirman que el vocoder propuesto se compara favorablemente con el estado del arte en su capacidad para generalizar a voces y cualidades de voz no vistas. Se discutirán los desafíos restantes.