ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas

Autores: Pan, Weijun; Wang, Yidi; Zhang, Yumei; Han, Boyuan

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

ATC-SD Net: Red de Diarización de Altavoces para Comunicaciones Radiotelefónicas

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Desafíos

Entornos de alto ruido

Aviación civil

Comunicaciones por radioteléfono

Red de diarización de hablantes

Detección de actividad de voz

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 25

Citaciones: Sin citaciones

Este estudio aborda los desafíos que presentan los entornos de alto ruido y los escenarios complejos de múltiples hablantes en las comunicaciones de radio de la aviación civil. Se desarrolla una nueva red de difracción de altavoces para comunicaciones radiotelefónicas específicamente para estas circunstancias. Para mejorar la precisión de la red de diarización de hablantes, se diseñan tres módulos principales: detección de actividad de voz (VAD), separación de hablantes de extremo a extremo para la comunicación aire-tierra (EESS) y agrupamiento de texto basado en conocimiento probabilístico (PKTC). Primero, el módulo VAD utiliza mecanismos de atención para separar el silencio del ruido irrelevante, lo que resulta en comandos de diálogo puros. Posteriormente, el módulo EESS distingue entre controladores y pilotos al aplicar diferencias en las huellas de voz, lo que resulta en una segmentación efectiva de los hablantes. Finalmente, el módulo PKTC aborda el problema de la ambigüedad de la huella de voz del piloto utilizando agrupamiento de texto, introduciendo un nuevo modelo de agrupamiento relacionado con el texto basado en conocimiento previo de vuelo. Para lograr una diarización robusta de hablantes en escenarios de múltiples pilotos, este modelo utiliza la construcción de gráficos basada en conocimiento previo, la corrección de gráficos basada en datos de radar y la optimización probabilística. Este estudio también incluye el desarrollo del conjunto de datos especializado ATCSPEECH, que demuestra mejoras significativas en el rendimiento en comparación con los conjuntos de datos AMI y ATCO2 PROJECT.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro