Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada

Autores: Bous, Frederik; Roebel, Axel

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un Auto-Encoder de Cuello de Botella para Transformaciones de F0 en Voz Hablada y Cantada

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Aprendizaje profundo

Transformación f0

Auto-codificador

Mel-espectrograma

Medida de desenredamiento

Tamaño del cuello de botella

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

En esta publicación, presentamos un método basado en aprendizaje profundo para transformar el f0 en grabaciones de voz hablada y cantada. La transformación del f0 se realiza entrenando un auto-codificador en el mel-espectrograma de la señal de voz y condicionando el auto-codificador en el f0. Inspirados por AutoVC/F0, aplicamos un cuello de botella de información para desentrelazar el f0 de su código latente. El modelo resultante aplica con éxito el f0 deseado a los mel-espectrogramas de entrada y adapta la identidad del hablante cuando es necesario, por ejemplo, si el f0 solicitado está fuera del rango del hablante/cantante fuente. Usando el error medio de f0 en los mel-espectrogramas transformados, definimos una medida de desentrelazado y realizamos un estudio sobre el tamaño del cuello de botella requerido. El estudio revela que para eliminar el f0 del código latente del auto-codificador, el tamaño del cuello de botella debe ser menor que cuatro para el canto y menor que nueve para el habla. A través de una prueba perceptiva, comparamos la calidad de audio del auto-codificador propuesto con las transformaciones de f0 obtenidas con un vocoder clásico. La prueba perceptiva confirma que la calidad de audio es mejor para el auto-codificador que para el vocoder clásico. Finalmente, se lleva a cabo un análisis visual del código latente para el caso bidimensional. Observamos que el auto-codificador codifica fonemas como gestos temporales discontinuos repetidos dentro del código latente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro