Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas

Autores: Roebel, Axel; Bous, Frederik

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Vocoding Neural para Voces Cantadas y Habladas con el WaveNet Excitado por Múltiples Bandas

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Espectrograma mel

Vocoders neuronales

Generación de voz

Parametrización de señales

Producción de audio

Complejidad computacional

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

El uso del espectrograma mel como parametrización de señal para la generación de voz es bastante reciente y está vinculado al desarrollo de vocoders neuronales. Estos son redes neuronales profundas que permiten reconstruir habla de alta calidad a partir de un espectrograma mel dado. Aunque inicialmente se desarrollaron para la síntesis de voz, ahora los vocoders neuronales también se han estudiado en el contexto de la manipulación de atributos de voz, abriendo nuevos medios para el procesamiento de voz en la producción de audio. Sin embargo, para poder aplicar vocoders neuronales en aplicaciones del mundo real, se deben abordar dos problemas: (1) Para soportar su uso en estaciones de trabajo de audio profesionales, la complejidad computacional debe ser pequeña, (2) el vocoder necesita soportar una gran variedad de hablantes, diferencias en las cualidades de voz y un amplio rango de intensidades que se pueden encontrar durante la producción de audio. En este contexto, el presente estudio proporcionará una descripción detallada del WaveNet excitado por bandas múltiples, un vocoder neuronal completamente convolucional construido en torno a bloques de procesamiento de señales. Evaluará el rendimiento del vocoder cuando se entrena en una variedad de bases de datos de múltiples hablantes y cantantes, incluyendo una evaluación experimental del vocoder neuronal entrenado en voces habladas y cantadas. Abordando el problema de la variación de intensidad, el estudio introducirá un nuevo esquema de normalización de señal adaptativa que permite una compensación robusta para las variaciones de ganancia dinámica y estática. Las evaluaciones se realizan utilizando medidas objetivas y una serie de pruebas perceptuales que incluyen diferentes algoritmos de vocoder neuronal conocidos en la literatura. Los resultados confirman que el vocoder propuesto se compara favorablemente con el estado del arte en su capacidad para generalizar a voces y cualidades de voz no vistas. Se discutirán los desafíos restantes.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro