Análisis y Evaluación de la Controlabilidad de un Sistema TTS Basado en Aprendizaje Profundo Expresivo
Autores: Tits, Noé; El Haddad, Kevin; Dutoit, Thierry
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Análisis y Evaluación de la Controlabilidad de un Sistema TTS Basado en Aprendizaje Profundo Expresivo
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Expresivo
Sistema TTS
Controlabilidad
Conjunto de datos
Blizzard 2013
Expresividad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En este artículo, estudiamos la controlabilidad de un sistema TTS expresivo entrenado en un conjunto de datos para un control continuo. El conjunto de datos es el conjunto de datos Blizzard 2013 basado en audiolibros leídos por una hablante femenina que contiene una gran variabilidad en estilos y expresividad. La controlabilidad se evalúa con un experimento objetivo y uno subjetivo. La evaluación objetiva se basa en una medida de correlación entre características acústicas y las dimensiones del espacio latente que representan la expresividad. La evaluación subjetiva se basa en un experimento perceptual en el que se muestra a los usuarios una interfaz para TTS Expresivo Controlable y se les pide que recuperen una utterancia sintética cuya expresividad corresponda subjetivamente a la de una utterancia de referencia.
Descripción
En este artículo, estudiamos la controlabilidad de un sistema TTS expresivo entrenado en un conjunto de datos para un control continuo. El conjunto de datos es el conjunto de datos Blizzard 2013 basado en audiolibros leídos por una hablante femenina que contiene una gran variabilidad en estilos y expresividad. La controlabilidad se evalúa con un experimento objetivo y uno subjetivo. La evaluación objetiva se basa en una medida de correlación entre características acústicas y las dimensiones del espacio latente que representan la expresividad. La evaluación subjetiva se basa en un experimento perceptual en el que se muestra a los usuarios una interfaz para TTS Expresivo Controlable y se les pide que recuperen una utterancia sintética cuya expresividad corresponda subjetivamente a la de una utterancia de referencia.