Un mecanismo de compuerta de convolución 2D para el reconocimiento de voz en streaming en mandarín
Autores: Wang, Xintong; Zhao, Chuangang
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un mecanismo de compuerta de convolución 2D para el reconocimiento de voz en streaming en mandarín
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Investigación
Red neuronal recurrente-transductora
Arquitectura rnn-t
Reconocimiento de voz en streaming
Red vgg2
Bloque gated-vgg2
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Investigaciones recientes muestran que la arquitectura de red neuronal recurrente-transductor (RNN-T) se ha convertido en un enfoque principal para el reconocimiento de voz en streaming. En este trabajo, investigamos la red VGG2 como la capa de entrada para el RNN-T en el reconocimiento de voz en streaming. Específicamente, antes de que la característica de entrada se pase al RNN-T, introducimos un bloque gated-VGG2, que utiliza las dos primeras capas de VGG16 para extraer información contextual en el dominio del tiempo, y luego utiliza un mecanismo de compuerta al estilo SEnet para controlar qué información en el dominio del canal se propaga al RNN-T. Los resultados muestran que el modelo RNN-T con el bloque gated-VGG2 propuesto aporta una mejora significativa en el rendimiento en comparación con el modelo RNN-T existente, y tiene una menor latencia y tasa de error de caracteres que el modelo basado en Transformer.
Descripción
Investigaciones recientes muestran que la arquitectura de red neuronal recurrente-transductor (RNN-T) se ha convertido en un enfoque principal para el reconocimiento de voz en streaming. En este trabajo, investigamos la red VGG2 como la capa de entrada para el RNN-T en el reconocimiento de voz en streaming. Específicamente, antes de que la característica de entrada se pase al RNN-T, introducimos un bloque gated-VGG2, que utiliza las dos primeras capas de VGG16 para extraer información contextual en el dominio del tiempo, y luego utiliza un mecanismo de compuerta al estilo SEnet para controlar qué información en el dominio del canal se propaga al RNN-T. Los resultados muestran que el modelo RNN-T con el bloque gated-VGG2 propuesto aporta una mejora significativa en el rendimiento en comparación con el modelo RNN-T existente, y tiene una menor latencia y tasa de error de caracteres que el modelo basado en Transformer.