Transformador de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde para la Mejora del Habla de Vehículos Aéreos No Tripulados con Ultra-Bajo Relación Señal-Ruido
Autores: Liu, Feifan; Li, Muying; Guo, Luming; Guo, Hao; Cao, Jie; Zhao, Wei; Wang, Jun
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Transformador de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde para la Mejora del Habla de Vehículos Aéreos No Tripulados con Ultra-Bajo Relación Señal-Ruido
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Desafío significativo
Mejora del habla
Relación señal-ruido (SNR) ultra baja
Vehículo aéreo no tripulado (UAV)
Transformador de codificación de posición rotativa de banda dividida desplegado en el borde (Edge-BS-RoFormer)
Métodos de aprendizaje profundo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Abordando el desafío significativo de la mejora del habla en escenarios de relación señal-ruido (SNR) ultra-baja para la comunicación de voz de vehículos aéreos no tripulados (UAV), particularmente bajo restricciones de implementación en el borde, este estudio propone el Transformer de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde (Edge-BS-RoFormer), un transformador novedoso y ligero de codificación de posición rotativa de división de banda. Mientras que los métodos de aprendizaje profundo existentes enfrentan limitaciones en la supresión de ruido dinámico de UAV bajo tales restricciones, incluyendo un modelado armónico insuficiente y una alta complejidad computacional, el Edge-BS-RoFormer propuesto sinergiza distintivamente una estrategia de división de banda para un procesamiento espectral detallado, un mecanismo de Codificación de Posición Rotativa (RoPE) de doble dimensión para un modelado conjunto superior en el tiempo y la frecuencia, y FlashAttention para optimizar la eficiencia computacional, lo cual es fundamental para su naturaleza ligera y su robusto rendimiento en SNR ultra-bajo. Los experimentos en nuestro conjunto de datos autoconstruido DroneNoise-LibriMix (DN-LM) demuestran la superioridad del Edge-BS-RoFormer. Bajo un SNR de -15 dB, logra mejoras en la Relación de Señal a Distorsión Invariante a la Escala (SI-SDR) de 2.2 dB sobre Deep Complex U-Net (DCUNet), 25.0 dB sobre la Red de Transformadores de Doble Ruta (DPTNet), y 2.3 dB sobre HTDemucs. Correspondientemente, la Evaluación Perceptual de la Calidad del Habla (PESQ) se mejora en 0.11, 0.18 y 0.15, respectivamente. Crucialmente, su eficacia para la implementación en el borde se sustenta en un almacenamiento mínimo del modelo de 8.534 MB, 11.617 GFLOPs (una reducción del 89.6% frente a DCUNet), una huella de memoria en tiempo de ejecución de menos de 500MB, un Factor de Tiempo Real (RTF) de 0.325 (latencia: 330.830 ms), y un consumo de energía de 6.536 W en un NVIDIA Jetson AGX Xavier, cumpliendo con las demandas de procesamiento en tiempo real. Este estudio ofrece una solución ligera validada, ejemplificada por su mínima sobrecarga computacional y capacidad de inferencia en el borde en tiempo real, para una mejora efectiva del habla en escenarios acústicos complejos de UAV, incluyendo condiciones de ruido dinámico. Además, el conjunto de datos y el modelo de código abierto contribuyen a avanzar en la investigación y establecer marcos de evaluación estandarizados en este dominio.
Descripción
Abordando el desafío significativo de la mejora del habla en escenarios de relación señal-ruido (SNR) ultra-baja para la comunicación de voz de vehículos aéreos no tripulados (UAV), particularmente bajo restricciones de implementación en el borde, este estudio propone el Transformer de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde (Edge-BS-RoFormer), un transformador novedoso y ligero de codificación de posición rotativa de división de banda. Mientras que los métodos de aprendizaje profundo existentes enfrentan limitaciones en la supresión de ruido dinámico de UAV bajo tales restricciones, incluyendo un modelado armónico insuficiente y una alta complejidad computacional, el Edge-BS-RoFormer propuesto sinergiza distintivamente una estrategia de división de banda para un procesamiento espectral detallado, un mecanismo de Codificación de Posición Rotativa (RoPE) de doble dimensión para un modelado conjunto superior en el tiempo y la frecuencia, y FlashAttention para optimizar la eficiencia computacional, lo cual es fundamental para su naturaleza ligera y su robusto rendimiento en SNR ultra-bajo. Los experimentos en nuestro conjunto de datos autoconstruido DroneNoise-LibriMix (DN-LM) demuestran la superioridad del Edge-BS-RoFormer. Bajo un SNR de -15 dB, logra mejoras en la Relación de Señal a Distorsión Invariante a la Escala (SI-SDR) de 2.2 dB sobre Deep Complex U-Net (DCUNet), 25.0 dB sobre la Red de Transformadores de Doble Ruta (DPTNet), y 2.3 dB sobre HTDemucs. Correspondientemente, la Evaluación Perceptual de la Calidad del Habla (PESQ) se mejora en 0.11, 0.18 y 0.15, respectivamente. Crucialmente, su eficacia para la implementación en el borde se sustenta en un almacenamiento mínimo del modelo de 8.534 MB, 11.617 GFLOPs (una reducción del 89.6% frente a DCUNet), una huella de memoria en tiempo de ejecución de menos de 500MB, un Factor de Tiempo Real (RTF) de 0.325 (latencia: 330.830 ms), y un consumo de energía de 6.536 W en un NVIDIA Jetson AGX Xavier, cumpliendo con las demandas de procesamiento en tiempo real. Este estudio ofrece una solución ligera validada, ejemplificada por su mínima sobrecarga computacional y capacidad de inferencia en el borde en tiempo real, para una mejora efectiva del habla en escenarios acústicos complejos de UAV, incluyendo condiciones de ruido dinámico. Además, el conjunto de datos y el modelo de código abierto contribuyen a avanzar en la investigación y establecer marcos de evaluación estandarizados en este dominio.