Método de mejora de habla de un solo canal supervisado utilizando UNET

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Método de mejora de habla de un solo canal supervisado utilizando UNET

Autores: Hossain, Md. Nahid; Basir, Samiul; Hosen, Md. Shakhawat; Asaduzzaman, A.O.M.; Islam, Md. Mojahidul; Hossain, Mohammad Alamgir; Islam, Md Shohidul

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Método de mejora de habla de un solo canal supervisado utilizando UNET

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Método propuesto

UNET

Mejora de voz

Modelo CNN

Matriz concatenada ruidosa

STFT

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 23

Citaciones: Sin citaciones

Este documento propone un innovador método de mejora de voz supervisado de un solo canal basado en UNET, una arquitectura de red neuronal convolucional (CNN) que amplía algunos cambios en la arquitectura básica de CNN. En la fase de entrenamiento, se explota la transformada de Fourier de corto tiempo (STFT) en la señal de dominio temporal ruidosa para construir una señal de dominio de tiempo-frecuencia ruidosa que se llama matriz ruidosa compleja. Tomamos las partes real e imaginaria de la matriz ruidosa compleja y las concatenamos para formar la matriz concatenada ruidosa. Aplicamos UNET a la matriz concatenada ruidosa para extraer componentes de voz y entrenar el modelo de CNN. En la fase de prueba, se aplica el mismo procedimiento a la señal de dominio temporal ruidosa como en la fase de entrenamiento para construir otra matriz concatenada ruidosa que puede ser probada usando un modelo pre-entrenado o guardado para construir una matriz concatenada mejorada. Finalmente, a partir de la matriz concatenada mejorada, separamos tanto las partes imaginarias como reales para formar una matriz compleja mejorada. La magnitud y la fase se extraen de la matriz compleja mejorada recién creada. Utilizando las bases de datos de IEEE y varios tipos de ruido, incluido el ruido estacionario y no estacionario, se evalúa el método propuesto. Comparando los resultados exploratorios del algoritmo propuesto con otros cinco métodos de STFT, factorización de matriz no negativa dispersa (SNMF), transformada de onda compleja de árbol dual (DTCWT)-SNMF, DTCWT-STFT-SNMF, STFT-auto codificador de denoising convolucional (CDAE) y mecanismo de atención de múltiples cabezas casual (CMAM) para la mejora de voz, determinamos que el algoritmo propuesto mejora generalmente la calidad y la inteligibilidad del habla en todas las relaciones señal-ruido consideradas (SNRs). El enfoque sugerido funciona mejor que los otros cinco algoritmos competidores en cada métrica de evaluación.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro