Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad
Autores: Liu, Yifan; Zheng, Jin
Idioma: Inglés
Editor: MDPI
Año: 2019
Acceso abierto
Artículo científico
2019
Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Sintetización de texto a voz
Técnicas de síntesis de voz
Modelo de extremo a extremo
Tacotron 2
Espectrograma mel
Es-Tacotron2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La síntesis de texto a voz es una técnica computacional para producir voz sintética, similar a la humana, por parte de una computadora. En los últimos años, las técnicas de síntesis de voz han evolucionado y se han empleado en muchas aplicaciones, como aplicaciones de traducción automática y sistemas de navegación en automóviles. La síntesis de texto a voz de extremo a extremo ha ganado un considerable interés en la investigación, porque en comparación con los modelos tradicionales, el modelo de extremo a extremo es más fácil de diseñar y más robusto. Tacotron 2 es un sistema de síntesis de voz de extremo a extremo integrado y de última generación que puede predecir directamente una voz humana cerrada a lo natural a partir de texto en bruto. Sin embargo, sigue existiendo una brecha entre la voz sintetizada y la voz natural. Sufriendo de un problema de sobre-suavidad, Tacotron 2 produce una voz "promediada", haciendo que la voz sintetizada suene poco natural e inflexible. En este trabajo, primero proponemos una red estimada (Es-Network), que captura características generales de un espectrograma mel en bruto de manera no supervisada. Luego, diseñamos Es-Tacotron2 empleando la Es-Network para calcular el residuo del espectrograma mel estimado, y estableciéndolo como una tarea de predicción adicional de Tacotron 2, para permitir que el modelo se enfoque más en predecir las características individuales del espectrograma mel. La experiencia muestra que, en comparación con el modelo original de Tacotron 2, Es-Tacotron2 puede producir una salida de decodificador más variable y sintetizar una voz más natural y expresiva.
Descripción
La síntesis de texto a voz es una técnica computacional para producir voz sintética, similar a la humana, por parte de una computadora. En los últimos años, las técnicas de síntesis de voz han evolucionado y se han empleado en muchas aplicaciones, como aplicaciones de traducción automática y sistemas de navegación en automóviles. La síntesis de texto a voz de extremo a extremo ha ganado un considerable interés en la investigación, porque en comparación con los modelos tradicionales, el modelo de extremo a extremo es más fácil de diseñar y más robusto. Tacotron 2 es un sistema de síntesis de voz de extremo a extremo integrado y de última generación que puede predecir directamente una voz humana cerrada a lo natural a partir de texto en bruto. Sin embargo, sigue existiendo una brecha entre la voz sintetizada y la voz natural. Sufriendo de un problema de sobre-suavidad, Tacotron 2 produce una voz "promediada", haciendo que la voz sintetizada suene poco natural e inflexible. En este trabajo, primero proponemos una red estimada (Es-Network), que captura características generales de un espectrograma mel en bruto de manera no supervisada. Luego, diseñamos Es-Tacotron2 empleando la Es-Network para calcular el residuo del espectrograma mel estimado, y estableciéndolo como una tarea de predicción adicional de Tacotron 2, para permitir que el modelo se enfoque más en predecir las características individuales del espectrograma mel. La experiencia muestra que, en comparación con el modelo original de Tacotron 2, Es-Tacotron2 puede producir una salida de decodificador más variable y sintetizar una voz más natural y expresiva.