logo móvil
Contáctanos

Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada

Autores: Bous, Frederik; Roebel, Axel

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje profundo
Transformación f0
Auto-codificador
Mel-espectrograma
Medida de desenredamiento
Tamaño del cuello de botella

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En esta publicación, presentamos un método basado en aprendizaje profundo para transformar el f0 en grabaciones de voz hablada y cantada. La transformación del f0 se realiza entrenando un auto-codificador en el mel-espectrograma de la señal de voz y condicionando el auto-codificador en el f0. Inspirados por AutoVC/F0, aplicamos un cuello de botella de información para desentrelazar el f0 de su código latente. El modelo resultante aplica con éxito el f0 deseado a los mel-espectrogramas de entrada y adapta la identidad del hablante cuando es necesario, por ejemplo, si el f0 solicitado está fuera del rango del hablante/cantante fuente. Usando el error medio de f0 en los mel-espectrogramas transformados, definimos una medida de desentrelazado y realizamos un estudio sobre el tamaño del cuello de botella requerido. El estudio revela que para eliminar el f0 del código latente del auto-codificador, el tamaño del cuello de botella debe ser menor que cuatro para el canto y menor que nueve para el habla. A través de una prueba perceptiva, comparamos la calidad de audio del auto-codificador propuesto con las transformaciones de f0 obtenidas con un vocoder clásico. La prueba perceptiva confirma que la calidad de audio es mejor para el auto-codificador que para el vocoder clásico. Finalmente, se lleva a cabo un análisis visual del código latente para el caso bidimensional. Observamos que el auto-codificador codifica fonemas como gestos temporales discontinuos repetidos dentro del código latente.

Otros recursos que podrían interesarte

Temas Virtualpro