Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz

Autores: Liao, Lyuchao; Afedzie Kwofie, Francis; Chen, Zhifeng; Han, Guangjie; Wang, Yongqiang; Lin, Yuyuan; Hu, Dongmei

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Un Transformador de Embedding de Contexto Bidireccional para el Reconocimiento Automático de Voz

Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Transformadores

Sistemas de ASR

Decodificación bidireccional

Basado en transformadores

Incrustación de contexto

Búsqueda en haz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones

Los transformadores se han vuelto populares en la construcción de sistemas de reconocimiento automático de voz (ASR) de extremo a extremo. Sin embargo, los sistemas ASR basados en transformadores suelen entrenarse para dar secuencias de salida en orden de izquierda a derecha, ignorando el contexto de derecha a izquierda. Actualmente, los sistemas ASR existentes basados en transformadores que emplean dos decodificadores para la decodificación bidireccional son complejos en términos de computación y optimización. El transformador ASR existente con un solo decodificador para la decodificación bidireccional requiere métodos adicionales (como un autoenmascaramiento) para resolver el problema de la fuga de información en el mecanismo de atención. Este artículo explora diferentes opciones para el desarrollo de un transformador de voz que utiliza un solo decodificador equipado con incrustación de contexto bidireccional (BCE) para la decodificación bidireccional. La dirección de decodificación, que se establece a nivel de entrada, permite que el modelo atienda diferentes contextos direccionales sin decodificadores adicionales y también alivia cualquier fuga de información. La efectividad de este método se verificó con un método de búsqueda de haz bidireccional que genera secuencias de salida bidireccionales y determina la mejor hipótesis de acuerdo con la puntuación de salida. Logramos una tasa de error de palabras (WER) del 7.65%/18.97% en el conjunto de pruebas LibriSpeech limpio/otro, superando el estilo de decodificación de izquierda a derecha en nuestro trabajo por un 3.17%/3.47%. Los resultados también son cercanos o mejores que otros modelos de última generación de extremo a extremo.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro