MVFF: Red de Fusión de Características de Múltiples Vistas para la Detección de UAV Pequeños
Autores: Zou, Kunlin; Zhao, Haitao; Yan, Xingwei; Wang, Wei; Zhang, Yan; Zhang, Yaxiu
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
MVFF: Red de Fusión de Características de Múltiples Vistas para la Detección de UAV Pequeños
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Adopción generalizada
Vehículos Aéreos No Tripulados
Objetivos de UAV
Red de Fusión de Características Multivista
Dimensiones a pequeña escala
Bajo contraste
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Con la adopción generalizada de varios tipos de Vehículos Aéreos No Tripulados (VANT), sus operaciones no conformes representan un grave desafío para la seguridad pública, lo que requiere la identificación y detección urgente de objetivos VANT. Sin embargo, en fondos complejos, los objetivos VANT exhiben dimensiones a pequeña escala y bajo contraste, junto con relaciones señal-ruido extremadamente bajas. Esto obliga a los métodos convencionales de detección de objetivos a enfrentar problemas como la convergencia de características, detecciones perdidas y falsas alarmas. Para abordar estos desafíos, proponemos una Red de Fusión de Características de Múltiples Vistas (MVFF) que logra la identificación precisa de objetivos VANT pequeños y de bajo contraste al aprovechar información complementaria de múltiples vistas. Primero, diseñamos un módulo de fusión de alineación de vistas colaborativas. Este módulo emplea un mecanismo de atención de fusión de características de mapa cruzado para establecer relaciones de mapeo a nivel de píxel y realizar una fusión profunda, resolviendo efectivamente la distorsión geométrica y la superposición semántica causadas por diferencias en el ángulo de imagen. Además, introducimos un módulo de suavizado de características de vista que emplea operadores de desplazamiento para construir un mecanismo de modelado ligero de largo alcance. Esto supera las limitaciones de los campos receptivos locales de convolución tradicionales, eliminando efectivamente los artefactos de fantasmas y las discontinuidades de respuesta que surgen de la fusión de múltiples vistas. Adicionalmente, desarrollamos una función de pérdida de entropía cruzada binaria para objetos pequeños. Al incorporar factores de ganancia adaptativos a la escala y pesos conscientes de la confianza, esta función mejora la capacidad de aprendizaje de las características de borde en objetos pequeños, reduciendo significativamente la incertidumbre de predicción causada por el ruido de fondo. Experimentos comparativos realizados en un conjunto de datos de VANT de múltiples perspectivas demuestran que nuestro enfoque supera consistentemente los métodos existentes de vanguardia en múltiples métricas de rendimiento. Específicamente, logra una medida de estructura del 91.50% y una medida F del 85.14%, validando la efectividad y superioridad del método propuesto.
Descripción
Con la adopción generalizada de varios tipos de Vehículos Aéreos No Tripulados (VANT), sus operaciones no conformes representan un grave desafío para la seguridad pública, lo que requiere la identificación y detección urgente de objetivos VANT. Sin embargo, en fondos complejos, los objetivos VANT exhiben dimensiones a pequeña escala y bajo contraste, junto con relaciones señal-ruido extremadamente bajas. Esto obliga a los métodos convencionales de detección de objetivos a enfrentar problemas como la convergencia de características, detecciones perdidas y falsas alarmas. Para abordar estos desafíos, proponemos una Red de Fusión de Características de Múltiples Vistas (MVFF) que logra la identificación precisa de objetivos VANT pequeños y de bajo contraste al aprovechar información complementaria de múltiples vistas. Primero, diseñamos un módulo de fusión de alineación de vistas colaborativas. Este módulo emplea un mecanismo de atención de fusión de características de mapa cruzado para establecer relaciones de mapeo a nivel de píxel y realizar una fusión profunda, resolviendo efectivamente la distorsión geométrica y la superposición semántica causadas por diferencias en el ángulo de imagen. Además, introducimos un módulo de suavizado de características de vista que emplea operadores de desplazamiento para construir un mecanismo de modelado ligero de largo alcance. Esto supera las limitaciones de los campos receptivos locales de convolución tradicionales, eliminando efectivamente los artefactos de fantasmas y las discontinuidades de respuesta que surgen de la fusión de múltiples vistas. Adicionalmente, desarrollamos una función de pérdida de entropía cruzada binaria para objetos pequeños. Al incorporar factores de ganancia adaptativos a la escala y pesos conscientes de la confianza, esta función mejora la capacidad de aprendizaje de las características de borde en objetos pequeños, reduciendo significativamente la incertidumbre de predicción causada por el ruido de fondo. Experimentos comparativos realizados en un conjunto de datos de VANT de múltiples perspectivas demuestran que nuestro enfoque supera consistentemente los métodos existentes de vanguardia en múltiples métricas de rendimiento. Específicamente, logra una medida de estructura del 91.50% y una medida F del 85.14%, validando la efectividad y superioridad del método propuesto.