Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla
Autores: Liang, Xintao; Li, Yuhang; Li, Xiaomin; Zhang, Yue; Ding, Youdong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Mejoramiento del habla
Condiciones de ruido desconocidas
Desajuste de fase
Red Generativa Antagónica
DPGAN
Conjunto de datos Voicebank-DEMAND
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Implementar la mejora del habla de un solo canal en condiciones de ruido desconocidas es un problema desafiante. La mayoría de los métodos existentes en el dominio tiempo-frecuencia se basan en el espectrograma de amplitud, y estos métodos a menudo ignoran la descoordinación de fase entre el habla ruidosa y el habla limpia, lo que limita en gran medida el rendimiento de la mejora del habla. Para resolver el problema de la descoordinación de fase y mejorar aún más el rendimiento de la mejora, este artículo propone una Red Generativa Antagónica (GAN) de doble flujo con conciencia de fase, llamada DPGAN. Nuestro generador utiliza una estructura de doble flujo para predecir la amplitud y la fase por separado y añade un módulo de comunicación de información entre los dos flujos para aplicar completamente la información de fase. Para hacer la predicción más eficiente, aplicamos Transformer para construir el generador, que puede aprender las propiedades estructurales del sonido más fácilmente. Finalmente, diseñamos un discriminador guiado perceptualmente que evalúa cuantitativamente la calidad del habla, optimizando el generador para métricas de evaluación específicas. Realizamos experimentos en el conjunto de datos Voicebank-DEMAND, el más utilizado, y DPGAN logró el estado del arte en la mayoría de las métricas.
Descripción
Implementar la mejora del habla de un solo canal en condiciones de ruido desconocidas es un problema desafiante. La mayoría de los métodos existentes en el dominio tiempo-frecuencia se basan en el espectrograma de amplitud, y estos métodos a menudo ignoran la descoordinación de fase entre el habla ruidosa y el habla limpia, lo que limita en gran medida el rendimiento de la mejora del habla. Para resolver el problema de la descoordinación de fase y mejorar aún más el rendimiento de la mejora, este artículo propone una Red Generativa Antagónica (GAN) de doble flujo con conciencia de fase, llamada DPGAN. Nuestro generador utiliza una estructura de doble flujo para predecir la amplitud y la fase por separado y añade un módulo de comunicación de información entre los dos flujos para aplicar completamente la información de fase. Para hacer la predicción más eficiente, aplicamos Transformer para construir el generador, que puede aprender las propiedades estructurales del sonido más fácilmente. Finalmente, diseñamos un discriminador guiado perceptualmente que evalúa cuantitativamente la calidad del habla, optimizando el generador para métricas de evaluación específicas. Realizamos experimentos en el conjunto de datos Voicebank-DEMAND, el más utilizado, y DPGAN logró el estado del arte en la mayoría de las métricas.