DecGAN: algoritmo de mejora de voz para control de tráfico aéreo
Autores: Liang, Haijun; He, Yimin; Chang, Hanwen; Kong, Jianguo
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
DecGAN: algoritmo de mejora de voz para control de tráfico aéreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Control de tráfico aéreo
Comunicación
Modelo de mejora del habla
DeCGAN
DeConformer
Red generativa adversaria
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 42
Citaciones: Sin citaciones
La comunicación del control del tráfico aéreo (ATC) es susceptible a la interferencia del ruido del habla, lo que socava la calidad del habla de la aviación civil. Para resolver este problema, proponemos un modelo de mejora del habla, denominado DeCGAN, basado en la red generativa adversaria DeConformer. El generador del modelo, el módulo DeConformer, que combina un módulo de atención de canal de frecuencia temporal (TFC-SA) y una red neuronal feedforward basada en convolución deformable (DeConv-FFN), captura eficazmente tanto las dependencias a largo plazo como las características locales de las señales de habla. Para este estudio, las salidas de dos ramas, el decodificador de máscara y el decodificador complejo, se amalgamaron para producir una señal de habla mejorada. Luego se utilizó un discriminador de métricas de evaluación de calidad del habla para derivar puntuaciones de evaluación de calidad del habla, y se implementó un entrenamiento adversario para generar habla de mayor calidad. Posteriormente, se realizaron experimentos para comparar DeCGAN con otros modelos de mejora del habla en el conjunto de datos ATC. Los resultados experimentales demuestran que el modelo propuesto es altamente competitivo en comparación con los modelos existentes. Específicamente, el modelo DeCGAN logró una puntuación de evaluación perceptual de calidad del habla (PESQ) de 3.31 y un valor de inteligibilidad objetiva a corto plazo (STOI) de 0.96.
Descripción
La comunicación del control del tráfico aéreo (ATC) es susceptible a la interferencia del ruido del habla, lo que socava la calidad del habla de la aviación civil. Para resolver este problema, proponemos un modelo de mejora del habla, denominado DeCGAN, basado en la red generativa adversaria DeConformer. El generador del modelo, el módulo DeConformer, que combina un módulo de atención de canal de frecuencia temporal (TFC-SA) y una red neuronal feedforward basada en convolución deformable (DeConv-FFN), captura eficazmente tanto las dependencias a largo plazo como las características locales de las señales de habla. Para este estudio, las salidas de dos ramas, el decodificador de máscara y el decodificador complejo, se amalgamaron para producir una señal de habla mejorada. Luego se utilizó un discriminador de métricas de evaluación de calidad del habla para derivar puntuaciones de evaluación de calidad del habla, y se implementó un entrenamiento adversario para generar habla de mayor calidad. Posteriormente, se realizaron experimentos para comparar DeCGAN con otros modelos de mejora del habla en el conjunto de datos ATC. Los resultados experimentales demuestran que el modelo propuesto es altamente competitivo en comparación con los modelos existentes. Específicamente, el modelo DeCGAN logró una puntuación de evaluación perceptual de calidad del habla (PESQ) de 3.31 y un valor de inteligibilidad objetiva a corto plazo (STOI) de 0.96.