Algoritmo de mejora de voz basado en matriz de micrófonos y CRN ligero para audífono
Autores: Xi, Ji; Xu, Zhe; Zhang, Weiqi; Zhao, Li; Xie, Yue
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Algoritmo de mejora de voz basado en matriz de micrófonos y CRN ligero para audífono
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Rendimiento
Complejidad computacional
Algoritmo de mejora de voz
Conjunto de micrófonos
Red convolucional recurrente
Módulo de formación de haces
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 32
Citaciones: Sin citaciones
Para abordar los problemas de rendimiento y complejidad computacional en la mejora del habla para audífonos, se propone un algoritmo de mejora del habla basado en un conjunto de micrófonos y una red convolucional recurrente (CRN) de dos etapas liviana. El algoritmo consta de dos módulos principales: un módulo de formación de haces y un módulo de post-filtrado. El módulo de formación de haces utiliza características direccionales y una red CFT-LSTM (memoria a largo plazo corto plazo compleja tiempo-frecuencia) para extraer representaciones locales y realizar filtrado espacial. El módulo de post-filtrado utiliza codificación análoga y dos estructuras de decodificación simétricas, con bloques apilados de CFT-LSTM en medio. Reduce aún más el ruido residual y mejora el rendimiento del filtrado al pasar información espacial a través de un módulo de enmascaramiento entre canales. Los resultados experimentales muestran que este algoritmo supera a los métodos existentes en el conjunto de datos de audífonos generados y en el conjunto de datos CHIME-3, con menos parámetros y menor complejidad del modelo, lo que lo hace adecuado para escenarios de audífonos con recursos computacionales limitados.
Descripción
Para abordar los problemas de rendimiento y complejidad computacional en la mejora del habla para audífonos, se propone un algoritmo de mejora del habla basado en un conjunto de micrófonos y una red convolucional recurrente (CRN) de dos etapas liviana. El algoritmo consta de dos módulos principales: un módulo de formación de haces y un módulo de post-filtrado. El módulo de formación de haces utiliza características direccionales y una red CFT-LSTM (memoria a largo plazo corto plazo compleja tiempo-frecuencia) para extraer representaciones locales y realizar filtrado espacial. El módulo de post-filtrado utiliza codificación análoga y dos estructuras de decodificación simétricas, con bloques apilados de CFT-LSTM en medio. Reduce aún más el ruido residual y mejora el rendimiento del filtrado al pasar información espacial a través de un módulo de enmascaramiento entre canales. Los resultados experimentales muestran que este algoritmo supera a los métodos existentes en el conjunto de datos de audífonos generados y en el conjunto de datos CHIME-3, con menos parámetros y menor complejidad del modelo, lo que lo hace adecuado para escenarios de audífonos con recursos computacionales limitados.