BSGNet: Detección de vehículos en imágenes de UAV de escenas de construcción a través de conciencia de borde biomimética y modelado de campo receptivo global
Autores: Wang, Yongwei; Chen, Yuan; Xie, Yakun; Zhu, Jun; Dang, Chao; Zhu, Hao
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
BSGNet: Detección de vehículos en imágenes de UAV de escenas de construcción a través de conciencia de borde biomimética y modelado de campo receptivo global
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Vehículos
Imágenes de teledetección
Sitios de construcción
Vehículos Aéreos No Tripulados (VANT)
BSGNet
Arquitectura de detección
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de vehículos en imágenes de teledetección de sitios de construcción capturadas por Vehículos Aéreos No Tripulados (UAV) enfrenta severos desafíos, incluyendo escalas de objetivo extremadamente pequeñas, alta similitud visual entre clases, fondos desordenados y condiciones de imagen altamente variables. Para abordar estos problemas, proponemos BSGNet (Red de Agudización Biomimética y Campo Receptivo Global), una nueva arquitectura de detección que fusiona sinérgicamente mecanismos visuales inspirados biológicamente con modelado de campo receptivo global. Inspirados en el mecanismo de Detección de Contraste Sostenido (SCD) en células ganglionares retinianas de ranas, diseñamos un Módulo de Agudización Perceptual (PSM). Este módulo combina la mejora de contraste de doble vía con mecanismos de atención espacial para mejorar significativamente la sensibilidad a las estructuras de borde de alta frecuencia de pequeños objetivos mientras suprime efectivamente los fondos interferentes. Para superar la limitación inherente de tales mecanismos biomiméticos, específicamente sus campos receptivos locales restringidos, introducimos además un Módulo de Aprendizaje de Campo Receptivo Heterogéneo Global (GRM). Este módulo emplea convoluciones dilatadas de múltiples ramas en paralelo y caminos de mejora de detalles locales para lograr un modelado conjunto del contexto semántico de largo alcance y características locales de alta resolución. Experimentos extensivos en nuestro nuevo conjunto de datos de Vehículos de Construcción UAV (UCV) demuestran que BSGNet logra un rendimiento de vanguardia: obteniendo un 64.9% de APs en pequeños objetivos y un 81.2% en la métrica mAP@0.5 en general, con una latencia de inferencia de solo 31.4 milisegundos, superando a los marcos de detección convencionales en múltiples métricas. Además, el modelo demuestra un rendimiento de generalización robusto en conjuntos de datos públicos.
Descripción
La detección de vehículos en imágenes de teledetección de sitios de construcción capturadas por Vehículos Aéreos No Tripulados (UAV) enfrenta severos desafíos, incluyendo escalas de objetivo extremadamente pequeñas, alta similitud visual entre clases, fondos desordenados y condiciones de imagen altamente variables. Para abordar estos problemas, proponemos BSGNet (Red de Agudización Biomimética y Campo Receptivo Global), una nueva arquitectura de detección que fusiona sinérgicamente mecanismos visuales inspirados biológicamente con modelado de campo receptivo global. Inspirados en el mecanismo de Detección de Contraste Sostenido (SCD) en células ganglionares retinianas de ranas, diseñamos un Módulo de Agudización Perceptual (PSM). Este módulo combina la mejora de contraste de doble vía con mecanismos de atención espacial para mejorar significativamente la sensibilidad a las estructuras de borde de alta frecuencia de pequeños objetivos mientras suprime efectivamente los fondos interferentes. Para superar la limitación inherente de tales mecanismos biomiméticos, específicamente sus campos receptivos locales restringidos, introducimos además un Módulo de Aprendizaje de Campo Receptivo Heterogéneo Global (GRM). Este módulo emplea convoluciones dilatadas de múltiples ramas en paralelo y caminos de mejora de detalles locales para lograr un modelado conjunto del contexto semántico de largo alcance y características locales de alta resolución. Experimentos extensivos en nuestro nuevo conjunto de datos de Vehículos de Construcción UAV (UCV) demuestran que BSGNet logra un rendimiento de vanguardia: obteniendo un 64.9% de APs en pequeños objetivos y un 81.2% en la métrica mAP@0.5 en general, con una latencia de inferencia de solo 31.4 milisegundos, superando a los marcos de detección convencionales en múltiples métricas. Además, el modelo demuestra un rendimiento de generalización robusto en conjuntos de datos públicos.