Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo

Autores: Huang, Ping; Wu, Yafeng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico

2024

Red de Atención Convolucional Temporal Densamente Conectada Multiescalar Apilada para la Mejora del Habla Multiobjetivo en un Entorno Aéreo

Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Aeroespacial

Palabras clave

Aéreo

Mejora del habla

Aprendizaje multiobjetivo

SMDTANet

Red neuronal convolucional temporal

Extractor de características

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 27

Citaciones: Sin citaciones

La mejora del habla en el aire siempre es un gran desafío para la seguridad de los sistemas aéreos. Recientemente, la tecnología de aprendizaje multiobjetivo se ha convertido en uno de los métodos más utilizados para la mejora del habla monaural. En este artículo, proponemos un nuevo método multiobjetivo para la mejora del habla en el aire, llamado red de atención convolucional temporal densa apilada multiescala (SMDTANet). Más específicamente, el núcleo de SMDTANet incluye tres partes, a saber, un extractor de características multiescala apilado, una red neuronal convolucional temporal basada en triple atención (TA-TCNN) y un módulo de predicción densamente conectado. El extractor de características multiescala apilado se utiliza para capturar información de características comprensivas de entradas de espectros de potencia logarítmica ruidosos (LPS). Luego, el TA-TCNN adopta una combinación de estas características multiescala y características de espectrograma de modulación de amplitud ruidosa (AMS) como entradas para mejorar su poderosa capacidad de modelado temporal. En TA-TCNN, integramos las ventajas de la atención de canal, la atención espacial y la atención T-F para diseñar un nuevo módulo de triple atención, que puede guiar a la red para suprimir información irrelevante y enfatizar características informativas de diferentes perspectivas. El módulo de predicción densamente conectado se utiliza para controlar de manera confiable el flujo de información y proporcionar una estimación precisa de LPS limpio y la máscara de relación ideal (IRM). Además, se construye una nueva función de pérdida ponderada conjunta (JW) para mejorar aún más el rendimiento sin aumentar la complejidad del modelo. Experimentos extensos en condiciones aéreas del mundo real muestran que nuestro SMDTANet puede obtener un rendimiento comparable o mejor en comparación con otros métodos de referencia en términos de todas las métricas objetivas de calidad e inteligibilidad del habla.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro