YOLO-CH: Una Red de Doble Flujo Basada en Interacción y Selección de Características Cruzadas para la Detección de Objetos Pequeños en UAV
Autores: Cheng, Qing; Jiang, Yan; Gao, Yuan; Qiu, Yun; Tang, Yutao; Tu, Xiaoguang
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
YOLO-CH: Una Red de Doble Flujo Basada en Interacción y Selección de Características Cruzadas para la Detección de Objetos Pequeños en UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetos
Fusión multimodal
YOLO-CH
Representación de características
Discriminación de objetos pequeños
Escenas aéreas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En la tarea de detección de objetos pequeños basada en vehículos aéreos no tripulados (UAV) dentro de escenas aéreas complejas, los objetos se caracterizan por una variación de escala significativa, una ocupación de píxeles extremadamente baja y una distribución densa. Estos factores limitan severamente la capacidad de representación de características y el modelado de información detallada de los detectores, lo que lleva a frecuentes falsos positivos y detecciones perdidas. La fusión de imágenes multimodal, que aprovecha la información complementaria de diferentes modalidades de detección, se considera ampliamente como un enfoque efectivo para mejorar el rendimiento de detección. Para mejorar la precisión y robustez de la detección de objetos en escenas aéreas, este documento propone YOLO-CH, un método de detección de fusión multimodal basado en una arquitectura YOLOv11 de doble flujo. El método desarrolla ramas de extracción de características de doble flujo en paralelo para codificar características específicas de modalidad a partir de imágenes visibles e infrarrojas. Se introduce un módulo de Transformador de Características Cruzadas (CFT) dentro de la red principal por pasos, que emplea un mecanismo de autoatención para modelar dependencias globales intra-modal e inter-modal, logrando una interacción profunda de características y una representación mejorada. Además, para mitigar el problema donde las características de objetos pequeños y de múltiples escalas son susceptibles a la interferencia del fondo, rediseñamos y optimizamos la estructura del cuello para formar una red de pirámide de características de filtrado semántico de alto nivel (High-level Screening Feature Pyramid Network, HSFPN). Este módulo utiliza información semántica de alto nivel de manera descendente para refinar las representaciones de detalles de bajo nivel, mejorando así la discriminación de objetos pequeños. Los resultados experimentales en los conjuntos de datos VEDAI y AVMS demuestran que el método propuesto supera a los modelos base tanto en precisión de detección como en robustez, manteniendo una fuerte adaptabilidad y rendimiento en diferentes escalas de entrada.
Descripción
En la tarea de detección de objetos pequeños basada en vehículos aéreos no tripulados (UAV) dentro de escenas aéreas complejas, los objetos se caracterizan por una variación de escala significativa, una ocupación de píxeles extremadamente baja y una distribución densa. Estos factores limitan severamente la capacidad de representación de características y el modelado de información detallada de los detectores, lo que lleva a frecuentes falsos positivos y detecciones perdidas. La fusión de imágenes multimodal, que aprovecha la información complementaria de diferentes modalidades de detección, se considera ampliamente como un enfoque efectivo para mejorar el rendimiento de detección. Para mejorar la precisión y robustez de la detección de objetos en escenas aéreas, este documento propone YOLO-CH, un método de detección de fusión multimodal basado en una arquitectura YOLOv11 de doble flujo. El método desarrolla ramas de extracción de características de doble flujo en paralelo para codificar características específicas de modalidad a partir de imágenes visibles e infrarrojas. Se introduce un módulo de Transformador de Características Cruzadas (CFT) dentro de la red principal por pasos, que emplea un mecanismo de autoatención para modelar dependencias globales intra-modal e inter-modal, logrando una interacción profunda de características y una representación mejorada. Además, para mitigar el problema donde las características de objetos pequeños y de múltiples escalas son susceptibles a la interferencia del fondo, rediseñamos y optimizamos la estructura del cuello para formar una red de pirámide de características de filtrado semántico de alto nivel (High-level Screening Feature Pyramid Network, HSFPN). Este módulo utiliza información semántica de alto nivel de manera descendente para refinar las representaciones de detalles de bajo nivel, mejorando así la discriminación de objetos pequeños. Los resultados experimentales en los conjuntos de datos VEDAI y AVMS demuestran que el método propuesto supera a los modelos base tanto en precisión de detección como en robustez, manteniendo una fuerte adaptabilidad y rendimiento en diferentes escalas de entrada.