logo móvil
Contáctanos

Transformador de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde para la Mejora del Habla de Vehículos Aéreos No Tripulados con Ultra-Bajo Relación Señal-Ruido

Autores: Liu, Feifan; Li, Muying; Guo, Luming; Guo, Hao; Cao, Jie; Zhao, Wei; Wang, Jun

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Transformador de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde para la Mejora del Habla de Vehículos Aéreos No Tripulados con Ultra-Bajo Relación Señal-Ruido


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Desafío significativo
Mejora del habla
Relación señal-ruido (SNR) ultra baja
Vehículo aéreo no tripulado (UAV)
Transformador de codificación de posición rotativa de banda dividida desplegado en el borde (Edge-BS-RoFormer)
Métodos de aprendizaje profundo

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
Abordando el desafío significativo de la mejora del habla en escenarios de relación señal-ruido (SNR) ultra-baja para la comunicación de voz de vehículos aéreos no tripulados (UAV), particularmente bajo restricciones de implementación en el borde, este estudio propone el Transformer de Codificación de Posición Rotativa de División de Banda Desplegado en el Borde (Edge-BS-RoFormer), un transformador novedoso y ligero de codificación de posición rotativa de división de banda. Mientras que los métodos de aprendizaje profundo existentes enfrentan limitaciones en la supresión de ruido dinámico de UAV bajo tales restricciones, incluyendo un modelado armónico insuficiente y una alta complejidad computacional, el Edge-BS-RoFormer propuesto sinergiza distintivamente una estrategia de división de banda para un procesamiento espectral detallado, un mecanismo de Codificación de Posición Rotativa (RoPE) de doble dimensión para un modelado conjunto superior en el tiempo y la frecuencia, y FlashAttention para optimizar la eficiencia computacional, lo cual es fundamental para su naturaleza ligera y su robusto rendimiento en SNR ultra-bajo. Los experimentos en nuestro conjunto de datos autoconstruido DroneNoise-LibriMix (DN-LM) demuestran la superioridad del Edge-BS-RoFormer. Bajo un SNR de -15 dB, logra mejoras en la Relación de Señal a Distorsión Invariante a la Escala (SI-SDR) de 2.2 dB sobre Deep Complex U-Net (DCUNet), 25.0 dB sobre la Red de Transformadores de Doble Ruta (DPTNet), y 2.3 dB sobre HTDemucs. Correspondientemente, la Evaluación Perceptual de la Calidad del Habla (PESQ) se mejora en 0.11, 0.18 y 0.15, respectivamente. Crucialmente, su eficacia para la implementación en el borde se sustenta en un almacenamiento mínimo del modelo de 8.534 MB, 11.617 GFLOPs (una reducción del 89.6% frente a DCUNet), una huella de memoria en tiempo de ejecución de menos de 500MB, un Factor de Tiempo Real (RTF) de 0.325 (latencia: 330.830 ms), y un consumo de energía de 6.536 W en un NVIDIA Jetson AGX Xavier, cumpliendo con las demandas de procesamiento en tiempo real. Este estudio ofrece una solución ligera validada, ejemplificada por su mínima sobrecarga computacional y capacidad de inferencia en el borde en tiempo real, para una mejora efectiva del habla en escenarios acústicos complejos de UAV, incluyendo condiciones de ruido dinámico. Además, el conjunto de datos y el modelo de código abierto contribuyen a avanzar en la investigación y establecer marcos de evaluación estandarizados en este dominio.

Otros recursos que podrían interesarte

Temas Virtualpro