Red de mejora de habla de baja complejidad basada en el transformador Swin a nivel de trama

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de mejora de habla de baja complejidad basada en el transformador Swin a nivel de trama

Autores: Jiang, Weiqi; Sun, Chengli; Chen, Feilong; Leng, Yan; Guo, Qiaosheng; Sun, Jiayi; Peng, Jiankun

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Red de mejora de habla de baja complejidad basada en el transformador Swin a nivel de trama

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Eléctrica y Electrónica

Palabras clave

Transformador

Mejora del habla

Autoatención

Espectrogramas

Complejidad computacional

Estructura jerárquica

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

En los últimos años, Transformer ha mostrado un gran rendimiento en la mejora del habla aplicando autoatención multi-cabeza para capturar de manera efectiva las dependencias a largo plazo. Sin embargo, la computación del Transformer es cuadrática con los espectrogramas de habla de entrada, lo que lo hace computacionalmente costoso para un uso práctico. En este documento, proponemos una red Transformer Swin a nivel de marco jerárquico de baja complejidad (FLSTN) para la mejora del habla. FLSTN toma varios marcos consecutivos como una ventana local y restringe la autoatención dentro de ella, reduciendo la complejidad a lineal con el tamaño del espectrograma. Un mecanismo de ventana desplazada mejora el intercambio de información entre ventanas adyacentes, de modo que la atención local basada en ventanas se convierte en una atención global disfrazada. La estructura jerárquica permite a FLSTN aprender características del habla en diferentes escalas. Además, diseñamos la capa de fusión de bandas y la capa de expansión de bandas para disminuir y aumentar la resolución espacial de los mapas de características, respectivamente. Probamos FLSTN tanto en habla de banda ancha de 16 kHz como en habla de banda completa de 48 kHz. Los resultados experimentales demuestran que FLSTN puede manejar bien el habla con diferentes anchos de banda. Con muy pocas operaciones de multiplicación-acumulación (MACs), FLSTN no solo tiene una ventaja significativa en complejidad computacional, sino que también logra métricas de calidad de habla objetivas comparables con los modelos actuales de vanguardia (SOTA).

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro