logo móvil
Contáctanos

Método de mejora de habla de un solo canal supervisado utilizando UNET

Autores: Hossain, Md. Nahid; Basir, Samiul; Hosen, Md. Shakhawat; Asaduzzaman, A.O.M.; Islam, Md. Mojahidul; Hossain, Mohammad Alamgir; Islam, Md Shohidul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Método de mejora de habla de un solo canal supervisado utilizando UNET


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Método propuesto
UNET
Mejora de voz
Modelo CNN
Matriz concatenada ruidosa
STFT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones


Descripción
Este documento propone un innovador método de mejora de voz supervisado de un solo canal basado en UNET, una arquitectura de red neuronal convolucional (CNN) que amplía algunos cambios en la arquitectura básica de CNN. En la fase de entrenamiento, se explota la transformada de Fourier de corto tiempo (STFT) en la señal de dominio temporal ruidosa para construir una señal de dominio de tiempo-frecuencia ruidosa que se llama matriz ruidosa compleja. Tomamos las partes real e imaginaria de la matriz ruidosa compleja y las concatenamos para formar la matriz concatenada ruidosa. Aplicamos UNET a la matriz concatenada ruidosa para extraer componentes de voz y entrenar el modelo de CNN. En la fase de prueba, se aplica el mismo procedimiento a la señal de dominio temporal ruidosa como en la fase de entrenamiento para construir otra matriz concatenada ruidosa que puede ser probada usando un modelo pre-entrenado o guardado para construir una matriz concatenada mejorada. Finalmente, a partir de la matriz concatenada mejorada, separamos tanto las partes imaginarias como reales para formar una matriz compleja mejorada. La magnitud y la fase se extraen de la matriz compleja mejorada recién creada. Utilizando las bases de datos de IEEE y varios tipos de ruido, incluido el ruido estacionario y no estacionario, se evalúa el método propuesto. Comparando los resultados exploratorios del algoritmo propuesto con otros cinco métodos de STFT, factorización de matriz no negativa dispersa (SNMF), transformada de onda compleja de árbol dual (DTCWT)-SNMF, DTCWT-STFT-SNMF, STFT-auto codificador de denoising convolucional (CDAE) y mecanismo de atención de múltiples cabezas casual (CMAM) para la mejora de voz, determinamos que el algoritmo propuesto mejora generalmente la calidad y la inteligibilidad del habla en todas las relaciones señal-ruido consideradas (SNRs). El enfoque sugerido funciona mejor que los otros cinco algoritmos competidores en cada métrica de evaluación.

Otros recursos que podrían interesarte

Temas Virtualpro