Un Pipeline Automático de Agrupamiento de Altavoces para el Dominio de Comunicación de Tráfico Aéreo
Autores: Khalil, Driss; Prasad, Amrutha; Motlicek, Petr; Zuluaga-Gomez, Juan; Nigmatulina, Iuliia; Madikeri, Srikanth; Schuepbach, Christof
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un Pipeline Automático de Agrupamiento de Altavoces para el Dominio de Comunicación de Tráfico Aéreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Gestión del tráfico aéreo
Comunicaciones por voz
Agrupamiento de hablantes
Algoritmos de procesamiento de voz
Sistemas automáticos
Clasificación de roles de hablantes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 18
Citaciones: Sin citaciones
En la gestión del tráfico aéreo (ATM), las comunicaciones por voz son críticas para garantizar la operación segura y eficiente de las aeronaves. Las comunicaciones de voz pertinentes -controlador de tráfico aéreo (ATCo) y piloto- se transmiten generalmente en un solo canal, lo que plantea un desafío al desarrollar sistemas automáticos para la gestión del tráfico aéreo. La agrupación de hablantes es uno de los desafíos al aplicar algoritmos de procesamiento de voz para identificar y agrupar al mismo hablante entre diferentes hablantes. Proponemos un proceso que despliega (i) detección de actividad de habla (SAD) para identificar segmentos de habla, (ii) un sistema de reconocimiento automático de voz para generar el texto de los segmentos de audio, (iii) clasificación de roles de hablantes basada en texto para detectar el rol del hablante -ATCo o piloto en nuestro caso- y (iv) agrupación no supervisada de hablantes para crear un grupo de cada piloto individual a partir de las expresiones de habla obtenidas. Los segmentos de habla obtenidos por SAD se introducen en un motor de reconocimiento automático de voz (ASR) para generar las transcripciones automáticas en inglés. El sistema de clasificación de roles de hablantes toma la transcripción como entrada y la utiliza para determinar si la voz era del ATCo o del piloto. Dado que el objetivo principal de este proyecto es agrupar a los hablantes en la comunicación de los pilotos, solo se emplean los datos de pilotos adquiridos del sistema de clasificación. Presentamos un método para separar las partes de habla de los pilotos en diferentes grupos basados en la voz del hablante utilizando agrupación jerárquica aglomerativa (AHC). El rendimiento del sistema de clasificación de roles de hablantes y de agrupación de hablantes se evalúa en dos conjuntos de datos disponibles públicamente: el corpus ATCO2 y el Corpus de Control de Tráfico Aéreo del Consorcio de Datos Lingüísticos (LDC-ATCC). Dado que las identidades reales de los pilotos son desconocidas, la verdad de base se genera en función de hipótesis lógicas sobre la creación de cada conjunto de datos, información temporal y la información extraída de los llamados asociados. En el caso de la agrupación de hablantes, el algoritmo propuesto logra una precisión del 70% en el conjunto de datos LDC-ATCC y del 50% en el más ruidoso conjunto de datos ATCO2.
Descripción
En la gestión del tráfico aéreo (ATM), las comunicaciones por voz son críticas para garantizar la operación segura y eficiente de las aeronaves. Las comunicaciones de voz pertinentes -controlador de tráfico aéreo (ATCo) y piloto- se transmiten generalmente en un solo canal, lo que plantea un desafío al desarrollar sistemas automáticos para la gestión del tráfico aéreo. La agrupación de hablantes es uno de los desafíos al aplicar algoritmos de procesamiento de voz para identificar y agrupar al mismo hablante entre diferentes hablantes. Proponemos un proceso que despliega (i) detección de actividad de habla (SAD) para identificar segmentos de habla, (ii) un sistema de reconocimiento automático de voz para generar el texto de los segmentos de audio, (iii) clasificación de roles de hablantes basada en texto para detectar el rol del hablante -ATCo o piloto en nuestro caso- y (iv) agrupación no supervisada de hablantes para crear un grupo de cada piloto individual a partir de las expresiones de habla obtenidas. Los segmentos de habla obtenidos por SAD se introducen en un motor de reconocimiento automático de voz (ASR) para generar las transcripciones automáticas en inglés. El sistema de clasificación de roles de hablantes toma la transcripción como entrada y la utiliza para determinar si la voz era del ATCo o del piloto. Dado que el objetivo principal de este proyecto es agrupar a los hablantes en la comunicación de los pilotos, solo se emplean los datos de pilotos adquiridos del sistema de clasificación. Presentamos un método para separar las partes de habla de los pilotos en diferentes grupos basados en la voz del hablante utilizando agrupación jerárquica aglomerativa (AHC). El rendimiento del sistema de clasificación de roles de hablantes y de agrupación de hablantes se evalúa en dos conjuntos de datos disponibles públicamente: el corpus ATCO2 y el Corpus de Control de Tráfico Aéreo del Consorcio de Datos Lingüísticos (LDC-ATCC). Dado que las identidades reales de los pilotos son desconocidas, la verdad de base se genera en función de hipótesis lógicas sobre la creación de cada conjunto de datos, información temporal y la información extraída de los llamados asociados. En el caso de la agrupación de hablantes, el algoritmo propuesto logra una precisión del 70% en el conjunto de datos LDC-ATCC y del 50% en el más ruidoso conjunto de datos ATCO2.