Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS

Autores: Li, Jiaxin; Zhang, Lianhai

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Zse-vits: un método de clonación de voz expresiva sin necesidad de entrenamiento basado en VITS

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Clonación de voz

Timbre

Prosodia

ZSE-VITS

VITS

Reconocimiento de locutor

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 26

Citaciones: Sin citaciones

La clonación de voz tiene como objetivo sintetizar la voz con el timbre de un nuevo hablante a partir de una pequeña cantidad de su discurso. Los métodos actuales de clonación de voz, que se centran en modelar el timbre del hablante, pueden sintetizar discursos con timbres de habla similares. Sin embargo, la prosodia de estos métodos es plana, careciendo de expresividad y la capacidad de controlar la expresividad del discurso clonado. Para resolver este problema, proponemos un método novedoso ZSE-VITS (VITS expresivo de cero disparos) basado en el modelo de síntesis de habla de extremo a extremo VITS. Específicamente, utilizamos VITS como red principal y agregamos el modelo de reconocimiento de hablantes TitaNet como codificador de hablantes para realizar la clonación de voz de cero disparos. Utilizamos información de prosodia explícita para evitar efectos de la información del hablante y ajustamos la prosodia del discurso utilizando la predicción de información de prosodia y métodos de fusión de prosodia directamente. Ampliamos la distribución de tono de los conjuntos de datos de entrenamiento utilizando la ampliación de tono para mejorar la capacidad de generalización del modelo de prosodia, y afinamos el predictor de prosodia solo en el corpus de emociones para aprender la predicción de prosodia de varios estilos. Las evaluaciones objetivas y subjetivas de los conjuntos de datos abiertos muestran que nuestro método puede generar discursos más expresivos y ajustar la información de prosodia artificialmente sin afectar la similitud del timbre del hablante.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro