logo móvil
Contáctanos

Un mecanismo de compuerta de convolución 2D para el reconocimiento de voz en streaming en mandarín

Autores: Wang, Xintong; Zhao, Chuangang

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un mecanismo de compuerta de convolución 2D para el reconocimiento de voz en streaming en mandarín


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Investigación
Red neuronal recurrente-transductora
Arquitectura rnn-t
Reconocimiento de voz en streaming
Red vgg2
Bloque gated-vgg2

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Investigaciones recientes muestran que la arquitectura de red neuronal recurrente-transductor (RNN-T) se ha convertido en un enfoque principal para el reconocimiento de voz en streaming. En este trabajo, investigamos la red VGG2 como la capa de entrada para el RNN-T en el reconocimiento de voz en streaming. Específicamente, antes de que la característica de entrada se pase al RNN-T, introducimos un bloque gated-VGG2, que utiliza las dos primeras capas de VGG16 para extraer información contextual en el dominio del tiempo, y luego utiliza un mecanismo de compuerta al estilo SEnet para controlar qué información en el dominio del canal se propaga al RNN-T. Los resultados muestran que el modelo RNN-T con el bloque gated-VGG2 propuesto aporta una mejora significativa en el rendimiento en comparación con el modelo RNN-T existente, y tiene una menor latencia y tasa de error de caracteres que el modelo basado en Transformer.

Otros recursos que podrían interesarte

Temas Virtualpro