Red de mejora de habla de baja complejidad basada en el transformador Swin a nivel de trama
Autores: Jiang, Weiqi; Sun, Chengli; Chen, Feilong; Leng, Yan; Guo, Qiaosheng; Sun, Jiayi; Peng, Jiankun
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Red de mejora de habla de baja complejidad basada en el transformador Swin a nivel de trama
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Transformador
Mejora del habla
Autoatención
Espectrogramas
Complejidad computacional
Estructura jerárquica
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
En los últimos años, Transformer ha mostrado un gran rendimiento en la mejora del habla aplicando autoatención multi-cabeza para capturar de manera efectiva las dependencias a largo plazo. Sin embargo, la computación del Transformer es cuadrática con los espectrogramas de habla de entrada, lo que lo hace computacionalmente costoso para un uso práctico. En este documento, proponemos una red Transformer Swin a nivel de marco jerárquico de baja complejidad (FLSTN) para la mejora del habla. FLSTN toma varios marcos consecutivos como una ventana local y restringe la autoatención dentro de ella, reduciendo la complejidad a lineal con el tamaño del espectrograma. Un mecanismo de ventana desplazada mejora el intercambio de información entre ventanas adyacentes, de modo que la atención local basada en ventanas se convierte en una atención global disfrazada. La estructura jerárquica permite a FLSTN aprender características del habla en diferentes escalas. Además, diseñamos la capa de fusión de bandas y la capa de expansión de bandas para disminuir y aumentar la resolución espacial de los mapas de características, respectivamente. Probamos FLSTN tanto en habla de banda ancha de 16 kHz como en habla de banda completa de 48 kHz. Los resultados experimentales demuestran que FLSTN puede manejar bien el habla con diferentes anchos de banda. Con muy pocas operaciones de multiplicación-acumulación (MACs), FLSTN no solo tiene una ventaja significativa en complejidad computacional, sino que también logra métricas de calidad de habla objetivas comparables con los modelos actuales de vanguardia (SOTA).
Descripción
En los últimos años, Transformer ha mostrado un gran rendimiento en la mejora del habla aplicando autoatención multi-cabeza para capturar de manera efectiva las dependencias a largo plazo. Sin embargo, la computación del Transformer es cuadrática con los espectrogramas de habla de entrada, lo que lo hace computacionalmente costoso para un uso práctico. En este documento, proponemos una red Transformer Swin a nivel de marco jerárquico de baja complejidad (FLSTN) para la mejora del habla. FLSTN toma varios marcos consecutivos como una ventana local y restringe la autoatención dentro de ella, reduciendo la complejidad a lineal con el tamaño del espectrograma. Un mecanismo de ventana desplazada mejora el intercambio de información entre ventanas adyacentes, de modo que la atención local basada en ventanas se convierte en una atención global disfrazada. La estructura jerárquica permite a FLSTN aprender características del habla en diferentes escalas. Además, diseñamos la capa de fusión de bandas y la capa de expansión de bandas para disminuir y aumentar la resolución espacial de los mapas de características, respectivamente. Probamos FLSTN tanto en habla de banda ancha de 16 kHz como en habla de banda completa de 48 kHz. Los resultados experimentales demuestran que FLSTN puede manejar bien el habla con diferentes anchos de banda. Con muy pocas operaciones de multiplicación-acumulación (MACs), FLSTN no solo tiene una ventaja significativa en complejidad computacional, sino que también logra métricas de calidad de habla objetivas comparables con los modelos actuales de vanguardia (SOTA).