Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz
Autores: Liao, Lyuchao; Afedzie Kwofie, Francis; Chen, Zhifeng; Han, Guangjie; Wang, Yongqiang; Lin, Yuyuan; Hu, Dongmei
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Transformadores
Sistemas de ASR
Decodificación bidireccional
Basado en transformadores
Incrustación de contexto
Búsqueda en haz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los transformadores se han vuelto populares en la construcción de sistemas de reconocimiento automático de voz (ASR) de extremo a extremo. Sin embargo, los sistemas ASR basados en transformadores suelen entrenarse para dar secuencias de salida en orden de izquierda a derecha, ignorando el contexto de derecha a izquierda. Actualmente, los sistemas ASR existentes basados en transformadores que emplean dos decodificadores para la decodificación bidireccional son complejos en términos de computación y optimización. El transformador ASR existente con un solo decodificador para la decodificación bidireccional requiere métodos adicionales (como un autoenmascaramiento) para resolver el problema de la fuga de información en el mecanismo de atención. Este artículo explora diferentes opciones para el desarrollo de un transformador de voz que utiliza un solo decodificador equipado con incrustación de contexto bidireccional (BCE) para la decodificación bidireccional. La dirección de decodificación, que se establece a nivel de entrada, permite que el modelo atienda diferentes contextos direccionales sin decodificadores adicionales y también alivia cualquier fuga de información. La efectividad de este método se verificó con un método de búsqueda de haz bidireccional que genera secuencias de salida bidireccionales y determina la mejor hipótesis de acuerdo con la puntuación de salida. Logramos una tasa de error de palabras (WER) del 7.65%/18.97% en el conjunto de pruebas LibriSpeech limpio/otro, superando el estilo de decodificación de izquierda a derecha en nuestro trabajo por un 3.17%/3.47%. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.
Descripción
Los transformadores se han vuelto populares en la construcción de sistemas de reconocimiento automático de voz (ASR) de extremo a extremo. Sin embargo, los sistemas ASR basados en transformadores suelen entrenarse para dar secuencias de salida en orden de izquierda a derecha, ignorando el contexto de derecha a izquierda. Actualmente, los sistemas ASR existentes basados en transformadores que emplean dos decodificadores para la decodificación bidireccional son complejos en términos de computación y optimización. El transformador ASR existente con un solo decodificador para la decodificación bidireccional requiere métodos adicionales (como un autoenmascaramiento) para resolver el problema de la fuga de información en el mecanismo de atención. Este artículo explora diferentes opciones para el desarrollo de un transformador de voz que utiliza un solo decodificador equipado con incrustación de contexto bidireccional (BCE) para la decodificación bidireccional. La dirección de decodificación, que se establece a nivel de entrada, permite que el modelo atienda diferentes contextos direccionales sin decodificadores adicionales y también alivia cualquier fuga de información. La efectividad de este método se verificó con un método de búsqueda de haz bidireccional que genera secuencias de salida bidireccionales y determina la mejor hipótesis de acuerdo con la puntuación de salida. Logramos una tasa de error de palabras (WER) del 7.65%/18.97% en el conjunto de pruebas LibriSpeech limpio/otro, superando el estilo de decodificación de izquierda a derecha en nuestro trabajo por un 3.17%/3.47%. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.