Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo
Autores: Huang, Ping; Wu, Yafeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Aeroespacial
Palabras clave
Aéreo
Mejora del habla
Aprendizaje multiobjetivo
SMDTANet
Red neuronal convolucional temporal
Extractor de características
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 27
Citaciones: Sin citaciones
La mejora del habla en el aire siempre es un gran desafío para la seguridad de los sistemas aéreos. Recientemente, la tecnología de aprendizaje multiobjetivo se ha convertido en uno de los métodos más utilizados para la mejora del habla monaural. En este artículo, proponemos un nuevo método multiobjetivo para la mejora del habla en el aire, llamado red de atención convolucional temporal densa apilada multiescala (SMDTANet). Más específicamente, el núcleo de SMDTANet incluye tres partes, a saber, un extractor de características multiescala apilado, una red neuronal convolucional temporal basada en triple atención (TA-TCNN) y un módulo de predicción densamente conectado. El extractor de características multiescala apilado se utiliza para capturar información de características comprensivas de entradas de espectros de potencia logarítmica ruidosos (LPS). Luego, el TA-TCNN adopta una combinación de estas características multiescala y características de espectrograma de modulación de amplitud ruidosa (AMS) como entradas para mejorar su poderosa capacidad de modelado temporal. En TA-TCNN, integramos las ventajas de la atención de canal, la atención espacial y la atención T-F para diseñar un nuevo módulo de triple atención, que puede guiar a la red para suprimir información irrelevante y enfatizar características informativas de diferentes perspectivas. El módulo de predicción densamente conectado se utiliza para controlar de manera confiable el flujo de información y proporcionar una estimación precisa de LPS limpio y la máscara de relación ideal (IRM). Además, se construye una nueva función de pérdida ponderada conjunta (JW) para mejorar aún más el rendimiento sin aumentar la complejidad del modelo. Experimentos extensos en condiciones aéreas del mundo real muestran que nuestro SMDTANet puede obtener un rendimiento comparable o mejor en comparación con otros métodos de referencia en términos de todas las métricas objetivas de calidad e inteligibilidad del habla.
Descripción
La mejora del habla en el aire siempre es un gran desafío para la seguridad de los sistemas aéreos. Recientemente, la tecnología de aprendizaje multiobjetivo se ha convertido en uno de los métodos más utilizados para la mejora del habla monaural. En este artículo, proponemos un nuevo método multiobjetivo para la mejora del habla en el aire, llamado red de atención convolucional temporal densa apilada multiescala (SMDTANet). Más específicamente, el núcleo de SMDTANet incluye tres partes, a saber, un extractor de características multiescala apilado, una red neuronal convolucional temporal basada en triple atención (TA-TCNN) y un módulo de predicción densamente conectado. El extractor de características multiescala apilado se utiliza para capturar información de características comprensivas de entradas de espectros de potencia logarítmica ruidosos (LPS). Luego, el TA-TCNN adopta una combinación de estas características multiescala y características de espectrograma de modulación de amplitud ruidosa (AMS) como entradas para mejorar su poderosa capacidad de modelado temporal. En TA-TCNN, integramos las ventajas de la atención de canal, la atención espacial y la atención T-F para diseñar un nuevo módulo de triple atención, que puede guiar a la red para suprimir información irrelevante y enfatizar características informativas de diferentes perspectivas. El módulo de predicción densamente conectado se utiliza para controlar de manera confiable el flujo de información y proporcionar una estimación precisa de LPS limpio y la máscara de relación ideal (IRM). Además, se construye una nueva función de pérdida ponderada conjunta (JW) para mejorar aún más el rendimiento sin aumentar la complejidad del modelo. Experimentos extensos en condiciones aéreas del mundo real muestran que nuestro SMDTANet puede obtener un rendimiento comparable o mejor en comparación con otros métodos de referencia en términos de todas las métricas objetivas de calidad e inteligibilidad del habla.