LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz

Autores: Fu, Pengbin; Liu, Daxing; Yang, Huirong

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

LAS-Transformer: Un Transformer Mejorado Basado en el Mecanismo de Atención Local para el Reconocimiento de Voz

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Transformador

Reconocimiento de voz

Atención local

Incrustación posicional

Módulo de autoatención

Tasa de error de palabras

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Recientemente, los modelos basados en Transformer han mostrado resultados prometedores en el reconocimiento automático de voz (ASR), superando a los modelos basados en redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN). Sin embargo, aplicar directamente un Transformer a la tarea de ASR no explota de manera efectiva la correlación entre los fotogramas de voz, dejando al modelo atrapado en una solución subóptima. Con este fin, proponemos un modelo de Transformer de atención local para el reconocimiento de voz que combina la alta correlación entre los fotogramas de voz. Específicamente, utilizamos incrustaciones posicionales relativas, en lugar de incrustaciones posicionales absolutas, para mejorar la generalización del Transformer para secuencias de voz de diferentes longitudes. En segundo lugar, añadimos atención local basada en relaciones posicionales paramétricas al módulo de autoatención e incorporamos explícitamente conocimiento previo en el módulo de autoatención para hacer que el proceso de entrenamiento sea insensible a los hiperparámetros, mejorando así el rendimiento. Los experimentos realizados en el conjunto de datos LibriSpeech muestran que nuestro enfoque propuesto logra una tasa de error de palabras del 2.3/5.5% mediante la fusión de modelos de lenguaje sin ningún dato externo y reduce la tasa de error de palabras en un 17.8/9.8% en comparación con la línea base. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro