Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad

Autores: Liu, Yifan; Zheng, Jin

Idioma: Inglés

Editor: MDPI

Año: 2019

Descargar PDF

Acceso abierto

Artículo científico

2019

Es-Tacotron2: Tacotron 2 de Múltiples Tareas con Red Estimada Preentrenada para Reducir el Problema de Sobre-Suavidad

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Sintetización de texto a voz

Técnicas de síntesis de voz

Modelo de extremo a extremo

Tacotron 2

Espectrograma mel

Es-Tacotron2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

La síntesis de texto a voz es una técnica computacional para producir voz sintética, similar a la humana, por parte de una computadora. En los últimos años, las técnicas de síntesis de voz han evolucionado y se han empleado en muchas aplicaciones, como aplicaciones de traducción automática y sistemas de navegación en automóviles. La síntesis de texto a voz de extremo a extremo ha ganado un considerable interés en la investigación, porque en comparación con los modelos tradicionales, el modelo de extremo a extremo es más fácil de diseñar y más robusto. Tacotron 2 es un sistema de síntesis de voz de extremo a extremo integrado y de última generación que puede predecir directamente una voz humana cerrada a lo natural a partir de texto en bruto. Sin embargo, sigue existiendo una brecha entre la voz sintetizada y la voz natural. Sufriendo de un problema de sobre-suavidad, Tacotron 2 produce una voz "promediada", haciendo que la voz sintetizada suene poco natural e inflexible. En este trabajo, primero proponemos una red estimada (Es-Network), que captura características generales de un espectrograma mel en bruto de manera no supervisada. Luego, diseñamos Es-Tacotron2 empleando la Es-Network para calcular el residuo del espectrograma mel estimado, y estableciéndolo como una tarea de predicción adicional de Tacotron 2, para permitir que el modelo se enfoque más en predecir las características individuales del espectrograma mel. La experiencia muestra que, en comparación con el modelo original de Tacotron 2, Es-Tacotron2 puede producir una salida de decodificador más variable y sintetizar una voz más natural y expresiva.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro