Discurso GAU: Una Atención de Cabeza Única para el Reconocimiento de Voz en Mandarín para el Control del Tráfico Aéreo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Discurso GAU: Una Atención de Cabeza Única para el Reconocimiento de Voz en Mandarín para el Control del Tráfico Aéreo

Autores: Zhang, Shiyu; Kong, Jianguo; Chen, Chao; Li, Yabin; Liang, Haijun

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Discurso GAU: Una Atención de Cabeza Única para el Reconocimiento de Voz en Mandarín para el Control del Tráfico Aéreo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Reconocimiento de voz

De extremo a extremo

Tecnología

ResNet-GAU-CTC

Mandarín

Control de tráfico aéreo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones

El auge de la tecnología de reconocimiento de voz de extremo a extremo (E2E) en los últimos años ha revolucionado el patrón de diseño de múltiples subtareas en el reconocimiento de voz clásico y ha logrado un mapeo directo de las señales de entrada de voz a etiquetas de texto. En este estudio, se propone un nuevo marco E2E, ResNet-GAU-CTC, para implementar el reconocimiento de voz en mandarín para el control del tráfico aéreo (ATC). Una red residual profunda (ResNet) utiliza la invariancia de traducción y la correlación local de una red neuronal convolucional (CNN) para extraer la información del dominio tiempo-frecuencia de las señales de voz. Una unidad de atención con compuerta (GAU) utiliza un mecanismo de atención de cabeza única con compuerta para capturar mejor las dependencias a largo plazo de las secuencias, logrando así un campo receptivo más grande y una mejor información contextual, así como una tasa de convergencia de entrenamiento más rápida. El criterio de clasificación temporal conexionista (CTC) elimina la necesidad de alineaciones forzadas a nivel de cuadro. Para abordar los problemas de escasez de recursos de datos y normas y contextos de pronunciación únicos en el campo del ATC, se aplicaron técnicas de aprendizaje por transferencia y aumento de datos para mejorar la robustez de la red y mejorar la capacidad de generalización del modelo. La tasa de error de caracteres (CER) de nuestro modelo fue del 11.1% en el corpus Aishell expandido, y disminuyó al 8.0% en el corpus ATC.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro