Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada
Autores: Bous, Frederik; Roebel, Axel
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Aprendizaje profundo
Transformación f0
Auto-codificador
Mel-espectrograma
Medida de desenredamiento
Tamaño del cuello de botella
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En esta publicación, presentamos un método basado en aprendizaje profundo para transformar el f0 en grabaciones de voz hablada y cantada. La transformación del f0 se realiza entrenando un auto-codificador en el mel-espectrograma de la señal de voz y condicionando el auto-codificador en el f0. Inspirados por AutoVC/F0, aplicamos un cuello de botella de información para desentrelazar el f0 de su código latente. El modelo resultante aplica con éxito el f0 deseado a los mel-espectrogramas de entrada y adapta la identidad del hablante cuando es necesario, por ejemplo, si el f0 solicitado está fuera del rango del hablante/cantante fuente. Usando el error medio de f0 en los mel-espectrogramas transformados, definimos una medida de desentrelazado y realizamos un estudio sobre el tamaño del cuello de botella requerido. El estudio revela que para eliminar el f0 del código latente del auto-codificador, el tamaño del cuello de botella debe ser menor que cuatro para el canto y menor que nueve para el habla. A través de una prueba perceptiva, comparamos la calidad de audio del auto-codificador propuesto con las transformaciones de f0 obtenidas con un vocoder clásico. La prueba perceptiva confirma que la calidad de audio es mejor para el auto-codificador que para el vocoder clásico. Finalmente, se lleva a cabo un análisis visual del código latente para el caso bidimensional. Observamos que el auto-codificador codifica fonemas como gestos temporales discontinuos repetidos dentro del código latente.
Descripción
En esta publicación, presentamos un método basado en aprendizaje profundo para transformar el f0 en grabaciones de voz hablada y cantada. La transformación del f0 se realiza entrenando un auto-codificador en el mel-espectrograma de la señal de voz y condicionando el auto-codificador en el f0. Inspirados por AutoVC/F0, aplicamos un cuello de botella de información para desentrelazar el f0 de su código latente. El modelo resultante aplica con éxito el f0 deseado a los mel-espectrogramas de entrada y adapta la identidad del hablante cuando es necesario, por ejemplo, si el f0 solicitado está fuera del rango del hablante/cantante fuente. Usando el error medio de f0 en los mel-espectrogramas transformados, definimos una medida de desentrelazado y realizamos un estudio sobre el tamaño del cuello de botella requerido. El estudio revela que para eliminar el f0 del código latente del auto-codificador, el tamaño del cuello de botella debe ser menor que cuatro para el canto y menor que nueve para el habla. A través de una prueba perceptiva, comparamos la calidad de audio del auto-codificador propuesto con las transformaciones de f0 obtenidas con un vocoder clásico. La prueba perceptiva confirma que la calidad de audio es mejor para el auto-codificador que para el vocoder clásico. Finalmente, se lleva a cabo un análisis visual del código latente para el caso bidimensional. Observamos que el auto-codificador codifica fonemas como gestos temporales discontinuos repetidos dentro del código latente.