logo móvil
Contáctanos

Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad

Autores: Liu, Yifan; Zheng, Jin

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico
2019

Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sintetización de texto a voz
Técnicas de síntesis de voz
Modelo de extremo a extremo
Tacotron 2
Espectrograma mel
Es-Tacotron2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
La síntesis de texto a voz es una técnica computacional para producir voz sintética, similar a la humana, por parte de una computadora. En los últimos años, las técnicas de síntesis de voz han evolucionado y se han empleado en muchas aplicaciones, como aplicaciones de traducción automática y sistemas de navegación en automóviles. La síntesis de texto a voz de extremo a extremo ha ganado un considerable interés en la investigación, porque en comparación con los modelos tradicionales, el modelo de extremo a extremo es más fácil de diseñar y más robusto. Tacotron 2 es un sistema de síntesis de voz de extremo a extremo integrado y de última generación que puede predecir directamente una voz humana cerrada a lo natural a partir de texto en bruto. Sin embargo, sigue existiendo una brecha entre la voz sintetizada y la voz natural. Sufriendo de un problema de sobre-suavidad, Tacotron 2 produce una voz "promediada", haciendo que la voz sintetizada suene poco natural e inflexible. En este trabajo, primero proponemos una red estimada (Es-Network), que captura características generales de un espectrograma mel en bruto de manera no supervisada. Luego, diseñamos Es-Tacotron2 empleando la Es-Network para calcular el residuo del espectrograma mel estimado, y estableciéndolo como una tarea de predicción adicional de Tacotron 2, para permitir que el modelo se enfoque más en predecir las características individuales del espectrograma mel. La experiencia muestra que, en comparación con el modelo original de Tacotron 2, Es-Tacotron2 puede producir una salida de decodificador más variable y sintetizar una voz más natural y expresiva.

Otros recursos que podrían interesarte

Temas Virtualpro