Un modelo de lenguaje consciente del contexto para mejorar el reconocimiento de voz en el control del tráfico aéreo
Autores: Guo, Dongyue; Zhang, Zichen; Fan, Peng; Zhang, Jianwei; Yang, Bo
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un modelo de lenguaje consciente del contexto para mejorar el reconocimiento de voz en el control del tráfico aéreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Llamada de vuelo
Reconocimiento automático de voz
Control de tráfico aéreo
Modelo de lenguaje consciente del contexto
Arquitectura de codificador-decodificador
Información contextual
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
Reconocer dígitos aislados del indicativo de vuelo es una tarea importante y desafiante para el reconocimiento automático de voz (ASR) en el control de tráfico aéreo (ATC). Afortunadamente, el indicativo de vuelo es un tipo de conocimiento previo de ATC y está disponible a partir de información contextual dinámica. En este trabajo, intentamos utilizar este conocimiento previo para mejorar el rendimiento de la identificación del indicativo integrándolo en el modelo de lenguaje (LM). El enfoque propuesto se llama modelo de lenguaje consciente del contexto (CALM), que se puede aplicar tanto en la fase de decodificación de ASR como en la fase de re-evaluación. El modelo propuesto se implementa con una arquitectura de codificador-decodificador, en la que se propone un codificador de contexto adicional para considerar la información contextual. Se diseña una capa de incrustación compartida para capturar las correlaciones entre el texto de ASR y la información contextual. Se introduce la atención contextual para aprender representaciones discriminativas que apoyen al módulo decodificador. Finalmente, el enfoque propuesto se valida con un modelo ASR de extremo a extremo en un corpus multilingüe del mundo real (ATCSpeech). Los resultados experimentales demuestran que el CALM propuesto supera a otras líneas base tanto en la tarea de ASR como en la identificación del indicativo, y puede ser migrado prácticamente a un entorno en tiempo real.
Descripción
Reconocer dígitos aislados del indicativo de vuelo es una tarea importante y desafiante para el reconocimiento automático de voz (ASR) en el control de tráfico aéreo (ATC). Afortunadamente, el indicativo de vuelo es un tipo de conocimiento previo de ATC y está disponible a partir de información contextual dinámica. En este trabajo, intentamos utilizar este conocimiento previo para mejorar el rendimiento de la identificación del indicativo integrándolo en el modelo de lenguaje (LM). El enfoque propuesto se llama modelo de lenguaje consciente del contexto (CALM), que se puede aplicar tanto en la fase de decodificación de ASR como en la fase de re-evaluación. El modelo propuesto se implementa con una arquitectura de codificador-decodificador, en la que se propone un codificador de contexto adicional para considerar la información contextual. Se diseña una capa de incrustación compartida para capturar las correlaciones entre el texto de ASR y la información contextual. Se introduce la atención contextual para aprender representaciones discriminativas que apoyen al módulo decodificador. Finalmente, el enfoque propuesto se valida con un modelo ASR de extremo a extremo en un corpus multilingüe del mundo real (ATCSpeech). Los resultados experimentales demuestran que el CALM propuesto supera a otras líneas base tanto en la tarea de ASR como en la identificación del indicativo, y puede ser migrado prácticamente a un entorno en tiempo real.