Personalización del sistema ASR para el habla ATC con fusión mejorada
Autores: Fan, Jiahao; Pan, Weijun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Personalización del sistema ASR para el habla ATC con fusión mejorada
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Reconocimiento de voz
Proceso de entrenamiento
Modelo ASR
Control de tráfico aéreo
Método de fusión
Modelo de lenguaje
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
En los últimos años, la tecnología de reconocimiento automático de voz (ASR) ha mejorado significativamente. Sin embargo, el proceso de entrenamiento de un modelo ASR es complejo, ya que implica grandes cantidades de datos y un gran número de algoritmos. La tarea de entrenar un nuevo modelo para el control del tráfico aéreo (ATC) es considerable, ya que puede requerir muchos investigadores para su mantenimiento y actualización. En este artículo, desarrollamos un método de fusión mejorado que puede adaptar el modelo de lenguaje (LM) en ASR al dominio del control del tráfico aéreo. En lugar de utilizar vocabulario en la fusión tradicional, este método utiliza las instrucciones de ATC para mejorar el LM. La perplejidad muestra que el LM de la fusión mejorada es mucho mejor que el de la utilización de vocabulario. Con la fusión de vocabulario, el CER en el corpus de ATC disminuye de 0.3493 a 0.2876. La fusión mejorada reduce el CER de los corpus de ATC de 0.3493 a 0.2761. Aunque solo hay una diferencia de menos del 2% entre las dos fusiones, la perplejidad muestra que el LM de la fusión mejorada es mucho mejor.
Descripción
En los últimos años, la tecnología de reconocimiento automático de voz (ASR) ha mejorado significativamente. Sin embargo, el proceso de entrenamiento de un modelo ASR es complejo, ya que implica grandes cantidades de datos y un gran número de algoritmos. La tarea de entrenar un nuevo modelo para el control del tráfico aéreo (ATC) es considerable, ya que puede requerir muchos investigadores para su mantenimiento y actualización. En este artículo, desarrollamos un método de fusión mejorado que puede adaptar el modelo de lenguaje (LM) en ASR al dominio del control del tráfico aéreo. En lugar de utilizar vocabulario en la fusión tradicional, este método utiliza las instrucciones de ATC para mejorar el LM. La perplejidad muestra que el LM de la fusión mejorada es mucho mejor que el de la utilización de vocabulario. Con la fusión de vocabulario, el CER en el corpus de ATC disminuye de 0.3493 a 0.2876. La fusión mejorada reduce el CER de los corpus de ATC de 0.3493 a 0.2761. Aunque solo hay una diferencia de menos del 2% entre las dos fusiones, la perplejidad muestra que el LM de la fusión mejorada es mucho mejor.