Una Red de Interacción Cross-Mamba para la Geolocalización de UAV a Satélite
Autores: Tian, Lingyun; Shen, Qiang; Gao, Yang; Wang, Simiao; Liu, Yunan; Deng, Zilong
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Red de Interacción Cross-Mamba para la Geolocalización de UAV a Satélite
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Geolocalización
Vehículos aéreos no tripulados
CNNs
Transformadores
Mamba
VANT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La geolocalización de vehículos aéreos no tripulados (VANT) en entornos donde no se dispone de satélites ha surgido como un enfoque clave de investigación. Los avances recientes en esta área han sido impulsados en gran medida por marcos basados en el aprendizaje que utilizan redes neuronales convolucionales (CNN) y Transformers. Sin embargo, tanto las CNN como los Transformers enfrentan desafíos para capturar dependencias de características globales debido a sus campos receptivos restringidos. Inspirados en modelos de espacio de estado (SSM), que han demostrado eficacia en el modelado de secuencias largas, proponemos un método basado en Mamba puro llamado Red de Interacción Cross-Mamba (CMIN) para la geolocalización de VANT. CMIN consta de tres componentes clave: extracción de características, interacción de información y fusión de características. Aprovecha las fortalezas de Mamba en el modelado de información global para capturar de manera efectiva las correlaciones de características entre imágenes de VANT y satélites a través de un campo receptivo más amplio. Para la extracción de características, diseñamos un Módulo de Extracción de Características Siamés (SFEM) basado en dos bloques básicos de visión Mamba, lo que permite al modelo capturar la correlación entre las características de las imágenes de VANT y satélites. En términos de interacción de información, introducimos un Módulo de Atención Cruzada Local (LCAM) para fusionar características cross-Mamba, proporcionando una solución para la coincidencia de características a través del aprendizaje profundo. Al agregar características de varias capas de SFEM, generamos mapas de calor para la imagen satelital que ayudan a determinar las coordenadas geográficas del VANT. Además, proponemos una estrategia de enmascaramiento central para la augmentación de datos, que promueve la capacidad del modelo para aprender información contextual más rica de las imágenes de VANT. Los resultados experimentales en conjuntos de datos de referencia muestran que nuestro método logra un rendimiento de vanguardia. Los estudios de ablación validan aún más la efectividad de cada componente de CMIN.
Descripción
La geolocalización de vehículos aéreos no tripulados (VANT) en entornos donde no se dispone de satélites ha surgido como un enfoque clave de investigación. Los avances recientes en esta área han sido impulsados en gran medida por marcos basados en el aprendizaje que utilizan redes neuronales convolucionales (CNN) y Transformers. Sin embargo, tanto las CNN como los Transformers enfrentan desafíos para capturar dependencias de características globales debido a sus campos receptivos restringidos. Inspirados en modelos de espacio de estado (SSM), que han demostrado eficacia en el modelado de secuencias largas, proponemos un método basado en Mamba puro llamado Red de Interacción Cross-Mamba (CMIN) para la geolocalización de VANT. CMIN consta de tres componentes clave: extracción de características, interacción de información y fusión de características. Aprovecha las fortalezas de Mamba en el modelado de información global para capturar de manera efectiva las correlaciones de características entre imágenes de VANT y satélites a través de un campo receptivo más amplio. Para la extracción de características, diseñamos un Módulo de Extracción de Características Siamés (SFEM) basado en dos bloques básicos de visión Mamba, lo que permite al modelo capturar la correlación entre las características de las imágenes de VANT y satélites. En términos de interacción de información, introducimos un Módulo de Atención Cruzada Local (LCAM) para fusionar características cross-Mamba, proporcionando una solución para la coincidencia de características a través del aprendizaje profundo. Al agregar características de varias capas de SFEM, generamos mapas de calor para la imagen satelital que ayudan a determinar las coordenadas geográficas del VANT. Además, proponemos una estrategia de enmascaramiento central para la augmentación de datos, que promueve la capacidad del modelo para aprender información contextual más rica de las imágenes de VANT. Los resultados experimentales en conjuntos de datos de referencia muestran que nuestro método logra un rendimiento de vanguardia. Los estudios de ablación validan aún más la efectividad de cada componente de CMIN.