Discurso GAU: Una Atención de Cabeza Única para el Reconocimiento de Voz en Mandarín para el Control del Tráfico Aéreo
Autores: Zhang, Shiyu; Kong, Jianguo; Chen, Chao; Li, Yabin; Liang, Haijun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Discurso GAU: Una Atención de Cabeza Única para el Reconocimiento de Voz en Mandarín para el Control del Tráfico Aéreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Reconocimiento de voz
De extremo a extremo
Tecnología
ResNet-GAU-CTC
Mandarín
Control de tráfico aéreo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
El auge de la tecnología de reconocimiento de voz de extremo a extremo (E2E) en los últimos años ha revolucionado el patrón de diseño de múltiples subtareas en el reconocimiento de voz clásico y ha logrado un mapeo directo de las señales de entrada de voz a etiquetas de texto. En este estudio, se propone un nuevo marco E2E, ResNet-GAU-CTC, para implementar el reconocimiento de voz en mandarín para el control del tráfico aéreo (ATC). Una red residual profunda (ResNet) utiliza la invariancia de traducción y la correlación local de una red neuronal convolucional (CNN) para extraer la información del dominio tiempo-frecuencia de las señales de voz. Una unidad de atención con compuerta (GAU) utiliza un mecanismo de atención de cabeza única con compuerta para capturar mejor las dependencias a largo plazo de las secuencias, logrando así un campo receptivo más grande y una mejor información contextual, así como una tasa de convergencia de entrenamiento más rápida. El criterio de clasificación temporal conexionista (CTC) elimina la necesidad de alineaciones forzadas a nivel de cuadro. Para abordar los problemas de escasez de recursos de datos y normas y contextos de pronunciación únicos en el campo del ATC, se aplicaron técnicas de aprendizaje por transferencia y aumento de datos para mejorar la robustez de la red y mejorar la capacidad de generalización del modelo. La tasa de error de caracteres (CER) de nuestro modelo fue del 11.1% en el corpus Aishell expandido, y disminuyó al 8.0% en el corpus ATC.
Descripción
El auge de la tecnología de reconocimiento de voz de extremo a extremo (E2E) en los últimos años ha revolucionado el patrón de diseño de múltiples subtareas en el reconocimiento de voz clásico y ha logrado un mapeo directo de las señales de entrada de voz a etiquetas de texto. En este estudio, se propone un nuevo marco E2E, ResNet-GAU-CTC, para implementar el reconocimiento de voz en mandarín para el control del tráfico aéreo (ATC). Una red residual profunda (ResNet) utiliza la invariancia de traducción y la correlación local de una red neuronal convolucional (CNN) para extraer la información del dominio tiempo-frecuencia de las señales de voz. Una unidad de atención con compuerta (GAU) utiliza un mecanismo de atención de cabeza única con compuerta para capturar mejor las dependencias a largo plazo de las secuencias, logrando así un campo receptivo más grande y una mejor información contextual, así como una tasa de convergencia de entrenamiento más rápida. El criterio de clasificación temporal conexionista (CTC) elimina la necesidad de alineaciones forzadas a nivel de cuadro. Para abordar los problemas de escasez de recursos de datos y normas y contextos de pronunciación únicos en el campo del ATC, se aplicaron técnicas de aprendizaje por transferencia y aumento de datos para mejorar la robustez de la red y mejorar la capacidad de generalización del modelo. La tasa de error de caracteres (CER) de nuestro modelo fue del 11.1% en el corpus Aishell expandido, y disminuyó al 8.0% en el corpus ATC.