logo móvil
Contáctanos

Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo

Autores: Huang, Ping; Wu, Yafeng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Aéreo
Mejora del habla
Aprendizaje multiobjetivo
SMDTANet
Red neuronal convolucional temporal
Extractor de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones


Descripción
La mejora del habla en el aire siempre es un gran desafío para la seguridad de los sistemas aéreos. Recientemente, la tecnología de aprendizaje multiobjetivo se ha convertido en uno de los métodos más utilizados para la mejora del habla monaural. En este artículo, proponemos un nuevo método multiobjetivo para la mejora del habla en el aire, llamado red de atención convolucional temporal densa apilada multiescala (SMDTANet). Más específicamente, el núcleo de SMDTANet incluye tres partes, a saber, un extractor de características multiescala apilado, una red neuronal convolucional temporal basada en triple atención (TA-TCNN) y un módulo de predicción densamente conectado. El extractor de características multiescala apilado se utiliza para capturar información de características comprensivas de entradas de espectros de potencia logarítmica ruidosos (LPS). Luego, el TA-TCNN adopta una combinación de estas características multiescala y características de espectrograma de modulación de amplitud ruidosa (AMS) como entradas para mejorar su poderosa capacidad de modelado temporal. En TA-TCNN, integramos las ventajas de la atención de canal, la atención espacial y la atención T-F para diseñar un nuevo módulo de triple atención, que puede guiar a la red para suprimir información irrelevante y enfatizar características informativas de diferentes perspectivas. El módulo de predicción densamente conectado se utiliza para controlar de manera confiable el flujo de información y proporcionar una estimación precisa de LPS limpio y la máscara de relación ideal (IRM). Además, se construye una nueva función de pérdida ponderada conjunta (JW) para mejorar aún más el rendimiento sin aumentar la complejidad del modelo. Experimentos extensos en condiciones aéreas del mundo real muestran que nuestro SMDTANet puede obtener un rendimiento comparable o mejor en comparación con otros métodos de referencia en términos de todas las métricas objetivas de calidad e inteligibilidad del habla.

Otros recursos que podrían interesarte

Temas Virtualpro