logo móvil
Contáctanos

YOLO-CH: Una Red de Doble Flujo Basada en Interacción y Selección de Características Cruzadas para la Detección de Objetos Pequeños en UAV

Autores: Cheng, Qing; Jiang, Yan; Gao, Yuan; Qiu, Yun; Tang, Yutao; Tu, Xiaoguang

Idioma: Inglés

Editor: MDPI

Año: 2026

Descargar PDF

Acceso abierto

Artículo científico
2026

YOLO-CH: Una Red de Doble Flujo Basada en Interacción y Selección de Características Cruzadas para la Detección de Objetos Pequeños en UAV


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería Robótica

Palabras clave

Detección de objetos
Fusión multimodal
YOLO-CH
Representación de características
Discriminación de objetos pequeños
Escenas aéreas

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
En la tarea de detección de objetos pequeños basada en vehículos aéreos no tripulados (UAV) dentro de escenas aéreas complejas, los objetos se caracterizan por una variación de escala significativa, una ocupación de píxeles extremadamente baja y una distribución densa. Estos factores limitan severamente la capacidad de representación de características y el modelado de información detallada de los detectores, lo que lleva a frecuentes falsos positivos y detecciones perdidas. La fusión de imágenes multimodal, que aprovecha la información complementaria de diferentes modalidades de detección, se considera ampliamente como un enfoque efectivo para mejorar el rendimiento de detección. Para mejorar la precisión y robustez de la detección de objetos en escenas aéreas, este documento propone YOLO-CH, un método de detección de fusión multimodal basado en una arquitectura YOLOv11 de doble flujo. El método desarrolla ramas de extracción de características de doble flujo en paralelo para codificar características específicas de modalidad a partir de imágenes visibles e infrarrojas. Se introduce un módulo de Transformador de Características Cruzadas (CFT) dentro de la red principal por pasos, que emplea un mecanismo de autoatención para modelar dependencias globales intra-modal e inter-modal, logrando una interacción profunda de características y una representación mejorada. Además, para mitigar el problema donde las características de objetos pequeños y de múltiples escalas son susceptibles a la interferencia del fondo, rediseñamos y optimizamos la estructura del cuello para formar una red de pirámide de características de filtrado semántico de alto nivel (High-level Screening Feature Pyramid Network, HSFPN). Este módulo utiliza información semántica de alto nivel de manera descendente para refinar las representaciones de detalles de bajo nivel, mejorando así la discriminación de objetos pequeños. Los resultados experimentales en los conjuntos de datos VEDAI y AVMS demuestran que el método propuesto supera a los modelos base tanto en precisión de detección como en robustez, manteniendo una fuerte adaptabilidad y rendimiento en diferentes escalas de entrada.

Otros recursos que podrían interesarte

Temas Virtualpro