logo móvil
Contáctanos

Un Pipeline Automático de Agrupamiento de Altavoces para el Dominio de Comunicación de Tráfico Aéreo

Autores: Khalil, Driss; Prasad, Amrutha; Motlicek, Petr; Zuluaga-Gomez, Juan; Nigmatulina, Iuliia; Madikeri, Srikanth; Schuepbach, Christof

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un Pipeline Automático de Agrupamiento de Altavoces para el Dominio de Comunicación de Tráfico Aéreo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Gestión del tráfico aéreo
Comunicaciones por voz
Agrupamiento de hablantes
Algoritmos de procesamiento de voz
Sistemas automáticos
Clasificación de roles de hablantes

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 18

Citaciones: Sin citaciones


Descripción
En la gestión del tráfico aéreo (ATM), las comunicaciones por voz son críticas para garantizar la operación segura y eficiente de las aeronaves. Las comunicaciones de voz pertinentes -controlador de tráfico aéreo (ATCo) y piloto- se transmiten generalmente en un solo canal, lo que plantea un desafío al desarrollar sistemas automáticos para la gestión del tráfico aéreo. La agrupación de hablantes es uno de los desafíos al aplicar algoritmos de procesamiento de voz para identificar y agrupar al mismo hablante entre diferentes hablantes. Proponemos un proceso que despliega (i) detección de actividad de habla (SAD) para identificar segmentos de habla, (ii) un sistema de reconocimiento automático de voz para generar el texto de los segmentos de audio, (iii) clasificación de roles de hablantes basada en texto para detectar el rol del hablante -ATCo o piloto en nuestro caso- y (iv) agrupación no supervisada de hablantes para crear un grupo de cada piloto individual a partir de las expresiones de habla obtenidas. Los segmentos de habla obtenidos por SAD se introducen en un motor de reconocimiento automático de voz (ASR) para generar las transcripciones automáticas en inglés. El sistema de clasificación de roles de hablantes toma la transcripción como entrada y la utiliza para determinar si la voz era del ATCo o del piloto. Dado que el objetivo principal de este proyecto es agrupar a los hablantes en la comunicación de los pilotos, solo se emplean los datos de pilotos adquiridos del sistema de clasificación. Presentamos un método para separar las partes de habla de los pilotos en diferentes grupos basados en la voz del hablante utilizando agrupación jerárquica aglomerativa (AHC). El rendimiento del sistema de clasificación de roles de hablantes y de agrupación de hablantes se evalúa en dos conjuntos de datos disponibles públicamente: el corpus ATCO2 y el Corpus de Control de Tráfico Aéreo del Consorcio de Datos Lingüísticos (LDC-ATCC). Dado que las identidades reales de los pilotos son desconocidas, la verdad de base se genera en función de hipótesis lógicas sobre la creación de cada conjunto de datos, información temporal y la información extraída de los llamados asociados. En el caso de la agrupación de hablantes, el algoritmo propuesto logra una precisión del 70% en el conjunto de datos LDC-ATCC y del 50% en el más ruidoso conjunto de datos ATCO2.

Otros recursos que podrían interesarte

Temas Virtualpro