ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas
Autores: Pan, Weijun; Wang, Yidi; Zhang, Yumei; Han, Boyuan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Desafíos
Entornos de alto ruido
Aviación civil
Comunicaciones por radioteléfono
Red de diarización de hablantes
Detección de actividad de voz
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
Este estudio aborda los desafíos que presentan los entornos de alto ruido y los escenarios complejos de múltiples hablantes en las comunicaciones de radio de la aviación civil. Se desarrolla una nueva red de difracción de altavoces para comunicaciones radiotelefónicas específicamente para estas circunstancias. Para mejorar la precisión de la red de diarización de hablantes, se diseñan tres módulos principales: detección de actividad de voz (VAD), separación de hablantes de extremo a extremo para la comunicación aire-tierra (EESS) y agrupamiento de texto basado en conocimiento probabilístico (PKTC). Primero, el módulo VAD utiliza mecanismos de atención para separar el silencio del ruido irrelevante, lo que resulta en comandos de diálogo puros. Posteriormente, el módulo EESS distingue entre controladores y pilotos al aplicar diferencias en las huellas de voz, lo que resulta en una segmentación efectiva de los hablantes. Finalmente, el módulo PKTC aborda el problema de la ambigüedad de la huella de voz del piloto utilizando agrupamiento de texto, introduciendo un nuevo modelo de agrupamiento relacionado con el texto basado en conocimiento previo de vuelo. Para lograr una diarización robusta de hablantes en escenarios de múltiples pilotos, este modelo utiliza la construcción de gráficos basada en conocimiento previo, la corrección de gráficos basada en datos de radar y la optimización probabilística. Este estudio también incluye el desarrollo del conjunto de datos especializado ATCSPEECH, que demuestra mejoras significativas en el rendimiento en comparación con los conjuntos de datos AMI y ATCO2 PROJECT.
Descripción
Este estudio aborda los desafíos que presentan los entornos de alto ruido y los escenarios complejos de múltiples hablantes en las comunicaciones de radio de la aviación civil. Se desarrolla una nueva red de difracción de altavoces para comunicaciones radiotelefónicas específicamente para estas circunstancias. Para mejorar la precisión de la red de diarización de hablantes, se diseñan tres módulos principales: detección de actividad de voz (VAD), separación de hablantes de extremo a extremo para la comunicación aire-tierra (EESS) y agrupamiento de texto basado en conocimiento probabilístico (PKTC). Primero, el módulo VAD utiliza mecanismos de atención para separar el silencio del ruido irrelevante, lo que resulta en comandos de diálogo puros. Posteriormente, el módulo EESS distingue entre controladores y pilotos al aplicar diferencias en las huellas de voz, lo que resulta en una segmentación efectiva de los hablantes. Finalmente, el módulo PKTC aborda el problema de la ambigüedad de la huella de voz del piloto utilizando agrupamiento de texto, introduciendo un nuevo modelo de agrupamiento relacionado con el texto basado en conocimiento previo de vuelo. Para lograr una diarización robusta de hablantes en escenarios de múltiples pilotos, este modelo utiliza la construcción de gráficos basada en conocimiento previo, la corrección de gráficos basada en datos de radar y la optimización probabilística. Este estudio también incluye el desarrollo del conjunto de datos especializado ATCSPEECH, que demuestra mejoras significativas en el rendimiento en comparación con los conjuntos de datos AMI y ATCO2 PROJECT.