logo móvil
Contáctanos

Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz

Autores: Liao, Lyuchao; Afedzie Kwofie, Francis; Chen, Zhifeng; Han, Guangjie; Wang, Yongqiang; Lin, Yuyuan; Hu, Dongmei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico
2022

Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Transformadores
Sistemas de ASR
Decodificación bidireccional
Basado en transformadores
Incrustación de contexto
Búsqueda en haz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Los transformadores se han vuelto populares en la construcción de sistemas de reconocimiento automático de voz (ASR) de extremo a extremo. Sin embargo, los sistemas ASR basados en transformadores suelen entrenarse para dar secuencias de salida en orden de izquierda a derecha, ignorando el contexto de derecha a izquierda. Actualmente, los sistemas ASR existentes basados en transformadores que emplean dos decodificadores para la decodificación bidireccional son complejos en términos de computación y optimización. El transformador ASR existente con un solo decodificador para la decodificación bidireccional requiere métodos adicionales (como un autoenmascaramiento) para resolver el problema de la fuga de información en el mecanismo de atención. Este artículo explora diferentes opciones para el desarrollo de un transformador de voz que utiliza un solo decodificador equipado con incrustación de contexto bidireccional (BCE) para la decodificación bidireccional. La dirección de decodificación, que se establece a nivel de entrada, permite que el modelo atienda diferentes contextos direccionales sin decodificadores adicionales y también alivia cualquier fuga de información. La efectividad de este método se verificó con un método de búsqueda de haz bidireccional que genera secuencias de salida bidireccionales y determina la mejor hipótesis de acuerdo con la puntuación de salida. Logramos una tasa de error de palabras (WER) del 7.65%/18.97% en el conjunto de pruebas LibriSpeech limpio/otro, superando el estilo de decodificación de izquierda a derecha en nuestro trabajo por un 3.17%/3.47%. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.

Otros recursos que podrían interesarte

Temas Virtualpro