logo móvil
Contáctanos

Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla

Autores: Liang, Xintao; Li, Yuhang; Li, Xiaomin; Zhang, Yue; Ding, Youdong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Mejoramiento del habla
Condiciones de ruido desconocidas
Desajuste de fase
Red Generativa Antagónica
DPGAN
Conjunto de datos Voicebank-DEMAND

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Implementar la mejora del habla de un solo canal en condiciones de ruido desconocidas es un problema desafiante. La mayoría de los métodos existentes en el dominio tiempo-frecuencia se basan en el espectrograma de amplitud, y estos métodos a menudo ignoran la descoordinación de fase entre el habla ruidosa y el habla limpia, lo que limita en gran medida el rendimiento de la mejora del habla. Para resolver el problema de la descoordinación de fase y mejorar aún más el rendimiento de la mejora, este artículo propone una Red Generativa Antagónica (GAN) de doble flujo con conciencia de fase, llamada DPGAN. Nuestro generador utiliza una estructura de doble flujo para predecir la amplitud y la fase por separado y añade un módulo de comunicación de información entre los dos flujos para aplicar completamente la información de fase. Para hacer la predicción más eficiente, aplicamos Transformer para construir el generador, que puede aprender las propiedades estructurales del sonido más fácilmente. Finalmente, diseñamos un discriminador guiado perceptualmente que evalúa cuantitativamente la calidad del habla, optimizando el generador para métricas de evaluación específicas. Realizamos experimentos en el conjunto de datos Voicebank-DEMAND, el más utilizado, y DPGAN logró el estado del arte en la mayoría de las métricas.

Otros recursos que podrían interesarte

Temas Virtualpro