logo móvil
Contáctanos

Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS

Autores: Li, Jiaxin; Zhang, Lianhai

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Clonación de voz
Timbre
Prosodia
ZSE-VITS
VITS
Reconocimiento de locutor

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones


Descripción
La clonación de voz tiene como objetivo sintetizar la voz con el timbre de un nuevo hablante a partir de una pequeña cantidad de su discurso. Los métodos actuales de clonación de voz, que se centran en modelar el timbre del hablante, pueden sintetizar discursos con timbres de habla similares. Sin embargo, la prosodia de estos métodos es plana, careciendo de expresividad y la capacidad de controlar la expresividad del discurso clonado. Para resolver este problema, proponemos un método novedoso ZSE-VITS (VITS expresivo de cero disparos) basado en el modelo de síntesis de habla de extremo a extremo VITS. Específicamente, utilizamos VITS como red principal y agregamos el modelo de reconocimiento de hablantes TitaNet como codificador de hablantes para realizar la clonación de voz de cero disparos. Utilizamos información de prosodia explícita para evitar efectos de la información del hablante y ajustamos la prosodia del discurso utilizando la predicción de información de prosodia y métodos de fusión de prosodia directamente. Ampliamos la distribución de tono de los conjuntos de datos de entrenamiento utilizando la ampliación de tono para mejorar la capacidad de generalización del modelo de prosodia, y afinamos el predictor de prosodia solo en el corpus de emociones para aprender la predicción de prosodia de varios estilos. Las evaluaciones objetivas y subjetivas de los conjuntos de datos abiertos muestran que nuestro método puede generar discursos más expresivos y ajustar la información de prosodia artificialmente sin afectar la similitud del timbre del hablante.

Otros recursos que podrían interesarte

Temas Virtualpro