Rendimiento de mejora del habla basado en la red MANNER utilizando fusión de características
Autores: Wang, Shijie; Li, Ji; Shao, Lei; Liu, Hongli; Zhu, Lihua; Zhu, Xiaochen
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Rendimiento de mejora del habla basado en la red MANNER utilizando fusión de características
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Atención
Red
Mejora del habla
Características
Multi-vista
Fusión
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 35
Citaciones: Sin citaciones
Los problemas que la red de atención multi-vista para la eliminación de ruido (MANNER) no puede tener en cuenta son las características locales y globales en la mejora del habla de secuencias largas. Se propone una red de atención y fusión de características MANNER (AF-MANNER), que mejora el módulo de atención multi-vista (MA) en MANNER y reemplaza la atención global y local en el módulo. AF-MANNER también diseña el módulo de fusión ponderada de características para fusionar las características de atención instantánea y atención de vecindario para mejorar la expresión de características de la red. Los estudios de ablación finales muestran que esta red exhibe un buen rendimiento en la mejora del habla y que su estructura es valiosa para mejorar la inteligibilidad y calidad perceptual del habla.
Descripción
Los problemas que la red de atención multi-vista para la eliminación de ruido (MANNER) no puede tener en cuenta son las características locales y globales en la mejora del habla de secuencias largas. Se propone una red de atención y fusión de características MANNER (AF-MANNER), que mejora el módulo de atención multi-vista (MA) en MANNER y reemplaza la atención global y local en el módulo. AF-MANNER también diseña el módulo de fusión ponderada de características para fusionar las características de atención instantánea y atención de vecindario para mejorar la expresión de características de la red. Los estudios de ablación finales muestran que esta red exhibe un buen rendimiento en la mejora del habla y que su estructura es valiosa para mejorar la inteligibilidad y calidad perceptual del habla.