Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS
Autores: Li, Jiaxin; Zhang, Lianhai
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Clonación de voz
Timbre
Prosodia
ZSE-VITS
VITS
Reconocimiento de locutor
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
La clonación de voz tiene como objetivo sintetizar la voz con el timbre de un nuevo hablante a partir de una pequeña cantidad de su discurso. Los métodos actuales de clonación de voz, que se centran en modelar el timbre del hablante, pueden sintetizar discursos con timbres de habla similares. Sin embargo, la prosodia de estos métodos es plana, careciendo de expresividad y la capacidad de controlar la expresividad del discurso clonado. Para resolver este problema, proponemos un método novedoso ZSE-VITS (VITS expresivo de cero disparos) basado en el modelo de síntesis de habla de extremo a extremo VITS. Específicamente, utilizamos VITS como red principal y agregamos el modelo de reconocimiento de hablantes TitaNet como codificador de hablantes para realizar la clonación de voz de cero disparos. Utilizamos información de prosodia explícita para evitar efectos de la información del hablante y ajustamos la prosodia del discurso utilizando la predicción de información de prosodia y métodos de fusión de prosodia directamente. Ampliamos la distribución de tono de los conjuntos de datos de entrenamiento utilizando la ampliación de tono para mejorar la capacidad de generalización del modelo de prosodia, y afinamos el predictor de prosodia solo en el corpus de emociones para aprender la predicción de prosodia de varios estilos. Las evaluaciones objetivas y subjetivas de los conjuntos de datos abiertos muestran que nuestro método puede generar discursos más expresivos y ajustar la información de prosodia artificialmente sin afectar la similitud del timbre del hablante.
Descripción
La clonación de voz tiene como objetivo sintetizar la voz con el timbre de un nuevo hablante a partir de una pequeña cantidad de su discurso. Los métodos actuales de clonación de voz, que se centran en modelar el timbre del hablante, pueden sintetizar discursos con timbres de habla similares. Sin embargo, la prosodia de estos métodos es plana, careciendo de expresividad y la capacidad de controlar la expresividad del discurso clonado. Para resolver este problema, proponemos un método novedoso ZSE-VITS (VITS expresivo de cero disparos) basado en el modelo de síntesis de habla de extremo a extremo VITS. Específicamente, utilizamos VITS como red principal y agregamos el modelo de reconocimiento de hablantes TitaNet como codificador de hablantes para realizar la clonación de voz de cero disparos. Utilizamos información de prosodia explícita para evitar efectos de la información del hablante y ajustamos la prosodia del discurso utilizando la predicción de información de prosodia y métodos de fusión de prosodia directamente. Ampliamos la distribución de tono de los conjuntos de datos de entrenamiento utilizando la ampliación de tono para mejorar la capacidad de generalización del modelo de prosodia, y afinamos el predictor de prosodia solo en el corpus de emociones para aprender la predicción de prosodia de varios estilos. Las evaluaciones objetivas y subjetivas de los conjuntos de datos abiertos muestran que nuestro método puede generar discursos más expresivos y ajustar la información de prosodia artificialmente sin afectar la similitud del timbre del hablante.