DecGAN: algoritmo de mejora de voz para control de tráfico aéreo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

DecGAN: algoritmo de mejora de voz para control de tráfico aéreo

Autores: Liang, Haijun; He, Yimin; Chang, Hanwen; Kong, Jianguo

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico

2025

DecGAN: algoritmo de mejora de voz para control de tráfico aéreo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Control de tráfico aéreo

Comunicación

Modelo de mejora del habla

DeCGAN

DeConformer

Red generativa adversaria

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 42

Citaciones: Sin citaciones

La comunicación del control del tráfico aéreo (ATC) es susceptible a la interferencia del ruido del habla, lo que socava la calidad del habla de la aviación civil. Para resolver este problema, proponemos un modelo de mejora del habla, denominado DeCGAN, basado en la red generativa adversaria DeConformer. El generador del modelo, el módulo DeConformer, que combina un módulo de atención de canal de frecuencia temporal (TFC-SA) y una red neuronal feedforward basada en convolución deformable (DeConv-FFN), captura eficazmente tanto las dependencias a largo plazo como las características locales de las señales de habla. Para este estudio, las salidas de dos ramas, el decodificador de máscara y el decodificador complejo, se amalgamaron para producir una señal de habla mejorada. Luego se utilizó un discriminador de métricas de evaluación de calidad del habla para derivar puntuaciones de evaluación de calidad del habla, y se implementó un entrenamiento adversario para generar habla de mayor calidad. Posteriormente, se realizaron experimentos para comparar DeCGAN con otros modelos de mejora del habla en el conjunto de datos ATC. Los resultados experimentales demuestran que el modelo propuesto es altamente competitivo en comparación con los modelos existentes. Específicamente, el modelo DeCGAN logró una puntuación de evaluación perceptual de calidad del habla (PESQ) de 3.31 y un valor de inteligibilidad objetiva a corto plazo (STOI) de 0.96.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro