Estimación de Movimiento Espaciotemporal Adaptativa Multimodal Guiada por Prior Geométrico para MAVs Basados en Visión Monocular
Autores: Luo, Yu; Cha, Hao; Fu, Hongwei; Fu, Tingting; Tian, Bin; Tang, Huatao
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Estimación de Movimiento Espaciotemporal Adaptativa Multimodal Guiada por Prior Geométrico para MAVs Basados en Visión Monocular
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Estimación
Posición relativa
Velocidad
Vehículos aéreos micro
Señales visuales
Red adaptativa espaciotemporal desacoplada multimodal
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Estimar la posición y velocidad relativa de vehículos aéreos micro (MAV) utilizando señales visuales es un tema crítico en numerosas tareas. Sin embargo, los algoritmos tradicionales de estimación de movimiento relativo sufren severamente de interferencias de ruido no gaussiano y tienen una observabilidad limitada, lo que dificulta cumplir con los requisitos prácticos de escenarios dinámicos complejos. Para abordar este dilema, este documento propone una Red Adaptativa Espaciotemporal Desacoplada Multimodal (MDSAN). Diseñada para escenarios aire-aire, MDSAN logra una estimación de pose y velocidad relativa de alta precisión de MAV dinámicos mientras supera las limitaciones de observabilidad de los algoritmos tradicionales. En detalle, MDSAN se compone colaborativamente de dos sub-módulos centrales: bloques de Normalización Convolucional Específica de Modalidad (MSCN) y bloques de Estado Adaptativo Espaciotemporal (STAS). Específicamente, MSCN utiliza núcleos de convolución personalizados adaptados a tres modalidades: visual, física y geométrica, para separar sus características. Esto previene la interferencia entre modalidades y reduce el ruido no gaussiano. STAS, construido sobre un modelo de espacio de estados, combina dos funciones clave: rastrea las tendencias de movimiento a largo plazo de los MAV a lo largo del tiempo y refuerza la sinergia entre diferentes características modales a través del espacio. Los pesos adaptativos equilibran estas dos funciones, permitiendo una estimación estable, incluso cuando los métodos tradicionales luchan con baja observabilidad. Además, MDSAN adopta un esquema de fusión multimodal de visión completa, eliminando completamente la dependencia de la comunicación inalámbrica y reduciendo los costos de hardware. Resultados experimentales extensos demuestran que MDSAN logra el mejor rendimiento en todos los escenarios, superando significativamente a los algoritmos de estimación de movimiento existentes. Proporciona un nuevo camino técnico que equilibra alta precisión, alta robustez y rentabilidad para tecnologías como la percepción de enjambres de MAV.
Descripción
Estimar la posición y velocidad relativa de vehículos aéreos micro (MAV) utilizando señales visuales es un tema crítico en numerosas tareas. Sin embargo, los algoritmos tradicionales de estimación de movimiento relativo sufren severamente de interferencias de ruido no gaussiano y tienen una observabilidad limitada, lo que dificulta cumplir con los requisitos prácticos de escenarios dinámicos complejos. Para abordar este dilema, este documento propone una Red Adaptativa Espaciotemporal Desacoplada Multimodal (MDSAN). Diseñada para escenarios aire-aire, MDSAN logra una estimación de pose y velocidad relativa de alta precisión de MAV dinámicos mientras supera las limitaciones de observabilidad de los algoritmos tradicionales. En detalle, MDSAN se compone colaborativamente de dos sub-módulos centrales: bloques de Normalización Convolucional Específica de Modalidad (MSCN) y bloques de Estado Adaptativo Espaciotemporal (STAS). Específicamente, MSCN utiliza núcleos de convolución personalizados adaptados a tres modalidades: visual, física y geométrica, para separar sus características. Esto previene la interferencia entre modalidades y reduce el ruido no gaussiano. STAS, construido sobre un modelo de espacio de estados, combina dos funciones clave: rastrea las tendencias de movimiento a largo plazo de los MAV a lo largo del tiempo y refuerza la sinergia entre diferentes características modales a través del espacio. Los pesos adaptativos equilibran estas dos funciones, permitiendo una estimación estable, incluso cuando los métodos tradicionales luchan con baja observabilidad. Además, MDSAN adopta un esquema de fusión multimodal de visión completa, eliminando completamente la dependencia de la comunicación inalámbrica y reduciendo los costos de hardware. Resultados experimentales extensos demuestran que MDSAN logra el mejor rendimiento en todos los escenarios, superando significativamente a los algoritmos de estimación de movimiento existentes. Proporciona un nuevo camino técnico que equilibra alta precisión, alta robustez y rentabilidad para tecnologías como la percepción de enjambres de MAV.