LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz
Autores: Fu, Pengbin; Liu, Daxing; Yang, Huirong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Transformador
Reconocimiento de voz
Atención local
Incrustación posicional
Módulo de autoatención
Tasa de error de palabras
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Recientemente, los modelos basados en Transformer han mostrado resultados prometedores en el reconocimiento automático de voz (ASR), superando a los modelos basados en redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN). Sin embargo, aplicar directamente un Transformer a la tarea de ASR no explota de manera efectiva la correlación entre los fotogramas de voz, dejando al modelo atrapado en una solución subóptima. Con este fin, proponemos un modelo de Transformer de atención local para el reconocimiento de voz que combina la alta correlación entre los fotogramas de voz. Específicamente, utilizamos incrustaciones posicionales relativas, en lugar de incrustaciones posicionales absolutas, para mejorar la generalización del Transformer para secuencias de voz de diferentes longitudes. En segundo lugar, añadimos atención local basada en relaciones posicionales paramétricas al módulo de autoatención e incorporamos explícitamente conocimiento previo en el módulo de autoatención para hacer que el proceso de entrenamiento sea insensible a los hiperparámetros, mejorando así el rendimiento. Los experimentos realizados en el conjunto de datos LibriSpeech muestran que nuestro enfoque propuesto logra una tasa de error de palabras del 2.3/5.5% mediante la fusión de modelos de lenguaje sin ningún dato externo y reduce la tasa de error de palabras en un 17.8/9.8% en comparación con la línea base. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.
Descripción
Recientemente, los modelos basados en Transformer han mostrado resultados prometedores en el reconocimiento automático de voz (ASR), superando a los modelos basados en redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN). Sin embargo, aplicar directamente un Transformer a la tarea de ASR no explota de manera efectiva la correlación entre los fotogramas de voz, dejando al modelo atrapado en una solución subóptima. Con este fin, proponemos un modelo de Transformer de atención local para el reconocimiento de voz que combina la alta correlación entre los fotogramas de voz. Específicamente, utilizamos incrustaciones posicionales relativas, en lugar de incrustaciones posicionales absolutas, para mejorar la generalización del Transformer para secuencias de voz de diferentes longitudes. En segundo lugar, añadimos atención local basada en relaciones posicionales paramétricas al módulo de autoatención e incorporamos explícitamente conocimiento previo en el módulo de autoatención para hacer que el proceso de entrenamiento sea insensible a los hiperparámetros, mejorando así el rendimiento. Los experimentos realizados en el conjunto de datos LibriSpeech muestran que nuestro enfoque propuesto logra una tasa de error de palabras del 2.3/5.5% mediante la fusión de modelos de lenguaje sin ningún dato externo y reduce la tasa de error de palabras en un 17.8/9.8% en comparación con la línea base. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.