logo móvil
Contáctanos

ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas

Autores: Pan, Weijun; Wang, Yidi; Zhang, Yumei; Han, Boyuan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Desafíos
Entornos de alto ruido
Aviación civil
Comunicaciones por radioteléfono
Red de diarización de hablantes
Detección de actividad de voz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones


Descripción
Este estudio aborda los desafíos que presentan los entornos de alto ruido y los escenarios complejos de múltiples hablantes en las comunicaciones de radio de la aviación civil. Se desarrolla una nueva red de difracción de altavoces para comunicaciones radiotelefónicas específicamente para estas circunstancias. Para mejorar la precisión de la red de diarización de hablantes, se diseñan tres módulos principales: detección de actividad de voz (VAD), separación de hablantes de extremo a extremo para la comunicación aire-tierra (EESS) y agrupamiento de texto basado en conocimiento probabilístico (PKTC). Primero, el módulo VAD utiliza mecanismos de atención para separar el silencio del ruido irrelevante, lo que resulta en comandos de diálogo puros. Posteriormente, el módulo EESS distingue entre controladores y pilotos al aplicar diferencias en las huellas de voz, lo que resulta en una segmentación efectiva de los hablantes. Finalmente, el módulo PKTC aborda el problema de la ambigüedad de la huella de voz del piloto utilizando agrupamiento de texto, introduciendo un nuevo modelo de agrupamiento relacionado con el texto basado en conocimiento previo de vuelo. Para lograr una diarización robusta de hablantes en escenarios de múltiples pilotos, este modelo utiliza la construcción de gráficos basada en conocimiento previo, la corrección de gráficos basada en datos de radar y la optimización probabilística. Este estudio también incluye el desarrollo del conjunto de datos especializado ATCSPEECH, que demuestra mejoras significativas en el rendimiento en comparación con los conjuntos de datos AMI y ATCO2 PROJECT.

Otros recursos que podrían interesarte

Temas Virtualpro