Método de mejora de habla de un solo canal supervisado utilizando UNET
Autores: Hossain, Md. Nahid; Basir, Samiul; Hosen, Md. Shakhawat; Asaduzzaman, A.O.M.; Islam, Md. Mojahidul; Hossain, Mohammad Alamgir; Islam, Md Shohidul
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Método de mejora de habla de un solo canal supervisado utilizando UNET
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Método propuesto
UNET
Mejora de voz
Modelo CNN
Matriz concatenada ruidosa
STFT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 23
Citaciones: Sin citaciones
Este documento propone un innovador método de mejora de voz supervisado de un solo canal basado en UNET, una arquitectura de red neuronal convolucional (CNN) que amplía algunos cambios en la arquitectura básica de CNN. En la fase de entrenamiento, se explota la transformada de Fourier de corto tiempo (STFT) en la señal de dominio temporal ruidosa para construir una señal de dominio de tiempo-frecuencia ruidosa que se llama matriz ruidosa compleja. Tomamos las partes real e imaginaria de la matriz ruidosa compleja y las concatenamos para formar la matriz concatenada ruidosa. Aplicamos UNET a la matriz concatenada ruidosa para extraer componentes de voz y entrenar el modelo de CNN. En la fase de prueba, se aplica el mismo procedimiento a la señal de dominio temporal ruidosa como en la fase de entrenamiento para construir otra matriz concatenada ruidosa que puede ser probada usando un modelo pre-entrenado o guardado para construir una matriz concatenada mejorada. Finalmente, a partir de la matriz concatenada mejorada, separamos tanto las partes imaginarias como reales para formar una matriz compleja mejorada. La magnitud y la fase se extraen de la matriz compleja mejorada recién creada. Utilizando las bases de datos de IEEE y varios tipos de ruido, incluido el ruido estacionario y no estacionario, se evalúa el método propuesto. Comparando los resultados exploratorios del algoritmo propuesto con otros cinco métodos de STFT, factorización de matriz no negativa dispersa (SNMF), transformada de onda compleja de árbol dual (DTCWT)-SNMF, DTCWT-STFT-SNMF, STFT-auto codificador de denoising convolucional (CDAE) y mecanismo de atención de múltiples cabezas casual (CMAM) para la mejora de voz, determinamos que el algoritmo propuesto mejora generalmente la calidad y la inteligibilidad del habla en todas las relaciones señal-ruido consideradas (SNRs). El enfoque sugerido funciona mejor que los otros cinco algoritmos competidores en cada métrica de evaluación.
Descripción
Este documento propone un innovador método de mejora de voz supervisado de un solo canal basado en UNET, una arquitectura de red neuronal convolucional (CNN) que amplía algunos cambios en la arquitectura básica de CNN. En la fase de entrenamiento, se explota la transformada de Fourier de corto tiempo (STFT) en la señal de dominio temporal ruidosa para construir una señal de dominio de tiempo-frecuencia ruidosa que se llama matriz ruidosa compleja. Tomamos las partes real e imaginaria de la matriz ruidosa compleja y las concatenamos para formar la matriz concatenada ruidosa. Aplicamos UNET a la matriz concatenada ruidosa para extraer componentes de voz y entrenar el modelo de CNN. En la fase de prueba, se aplica el mismo procedimiento a la señal de dominio temporal ruidosa como en la fase de entrenamiento para construir otra matriz concatenada ruidosa que puede ser probada usando un modelo pre-entrenado o guardado para construir una matriz concatenada mejorada. Finalmente, a partir de la matriz concatenada mejorada, separamos tanto las partes imaginarias como reales para formar una matriz compleja mejorada. La magnitud y la fase se extraen de la matriz compleja mejorada recién creada. Utilizando las bases de datos de IEEE y varios tipos de ruido, incluido el ruido estacionario y no estacionario, se evalúa el método propuesto. Comparando los resultados exploratorios del algoritmo propuesto con otros cinco métodos de STFT, factorización de matriz no negativa dispersa (SNMF), transformada de onda compleja de árbol dual (DTCWT)-SNMF, DTCWT-STFT-SNMF, STFT-auto codificador de denoising convolucional (CDAE) y mecanismo de atención de múltiples cabezas casual (CMAM) para la mejora de voz, determinamos que el algoritmo propuesto mejora generalmente la calidad y la inteligibilidad del habla en todas las relaciones señal-ruido consideradas (SNRs). El enfoque sugerido funciona mejor que los otros cinco algoritmos competidores en cada métrica de evaluación.