Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla

Autores: Liang, Xintao; Li, Yuhang; Li, Xiaomin; Zhang, Yue; Ding, Youdong

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Una Red Generativa Antagónica de Doble Flujo con Conciencia de Fase para la Mejora del Habla

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Mejoramiento del habla

Condiciones de ruido desconocidas

Desajuste de fase

Red Generativa Antagónica

DPGAN

Conjunto de datos Voicebank-DEMAND

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Implementar la mejora del habla de un solo canal en condiciones de ruido desconocidas es un problema desafiante. La mayoría de los métodos existentes en el dominio tiempo-frecuencia se basan en el espectrograma de amplitud, y estos métodos a menudo ignoran la descoordinación de fase entre el habla ruidosa y el habla limpia, lo que limita en gran medida el rendimiento de la mejora del habla. Para resolver el problema de la descoordinación de fase y mejorar aún más el rendimiento de la mejora, este artículo propone una Red Generativa Antagónica (GAN) de doble flujo con conciencia de fase, llamada DPGAN. Nuestro generador utiliza una estructura de doble flujo para predecir la amplitud y la fase por separado y añade un módulo de comunicación de información entre los dos flujos para aplicar completamente la información de fase. Para hacer la predicción más eficiente, aplicamos Transformer para construir el generador, que puede aprender las propiedades estructurales del sonido más fácilmente. Finalmente, diseñamos un discriminador guiado perceptualmente que evalúa cuantitativamente la calidad del habla, optimizando el generador para métricas de evaluación específicas. Realizamos experimentos en el conjunto de datos Voicebank-DEMAND, el más utilizado, y DPGAN logró el estado del arte en la mayoría de las métricas.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro