logo móvil
Contáctanos

LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz

Autores: Fu, Pengbin; Liu, Daxing; Yang, Huirong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Transformador
Reconocimiento de voz
Atención local
Incrustación posicional
Módulo de autoatención
Tasa de error de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Recientemente, los modelos basados en Transformer han mostrado resultados prometedores en el reconocimiento automático de voz (ASR), superando a los modelos basados en redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN). Sin embargo, aplicar directamente un Transformer a la tarea de ASR no explota de manera efectiva la correlación entre los fotogramas de voz, dejando al modelo atrapado en una solución subóptima. Con este fin, proponemos un modelo de Transformer de atención local para el reconocimiento de voz que combina la alta correlación entre los fotogramas de voz. Específicamente, utilizamos incrustaciones posicionales relativas, en lugar de incrustaciones posicionales absolutas, para mejorar la generalización del Transformer para secuencias de voz de diferentes longitudes. En segundo lugar, añadimos atención local basada en relaciones posicionales paramétricas al módulo de autoatención e incorporamos explícitamente conocimiento previo en el módulo de autoatención para hacer que el proceso de entrenamiento sea insensible a los hiperparámetros, mejorando así el rendimiento. Los experimentos realizados en el conjunto de datos LibriSpeech muestran que nuestro enfoque propuesto logra una tasa de error de palabras del 2.3/5.5% mediante la fusión de modelos de lenguaje sin ningún dato externo y reduce la tasa de error de palabras en un 17.8/9.8% en comparación con la línea base. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.

Otros recursos que podrían interesarte

Temas Virtualpro