Eagle-YOLO: Mejorando la Detección de Objetos Pequeños en Tiempo Real en UAVs a través de la Agregación de Características de Multi-Grandeza
Autores: Du, Yan; Dai, Zifeng; Wu, Teng; Zhu, Quan; Hu, Changzhen; Wei, Shengjun
Idioma: Inglés
Editor: MDPI
Año: 2026
Acceso abierto
Artículo científico
2026
Eagle-YOLO: Mejorando la Detección de Objetos Pequeños en Tiempo Real en UAVs a través de la Agregación de Características de Multi-Grandeza
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetos
Vehículo aéreo no tripulado
En tiempo real
Agregación de características
Datos aéreos
Velocidad de inferencia
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La detección de objetos en tiempo real en imágenes de Vehículos Aéreos No Tripulados (UAV) presenta desafíos únicos, caracterizados principalmente por variaciones extremas de escala y un intenso desorden de fondo. Los detectores existentes a menudo sufren de homogeneización espectral, en la que los detalles críticos de alta frecuencia de objetivos pequeños se desvanecen por las señales de fondo dominantes durante la reducción de características. Para abordar esto, proponemos Eagle-YOLO, un marco de agregación de características dinámico diseñado para dominar estas complejidades sin comprometer la velocidad de inferencia. Introducimos tres innovaciones clave: (1) el Bloque de Granularidad Jerárquica (HG-Block), que emplea un camino de inyección de granularidad residual para funcionar como un ancla de detalles para objetos pequeños mientras acumula semántica para estructuras grandes; (2) el mecanismo de Modulación de Contexto entre Etapas (CSCM), que aprovecha una consulta de contexto global para filtrar la redundancia de fondo y recalibrar características a través de las etapas de la red; y (3) la estrategia de Convolución Heterogénea Adaptativa a la Escala (SAHC), que alinea dinámicamente los campos receptivos con la distribución de escala inherente de los datos aéreos. Experimentos extensos en el conjunto de datos DUT Anti-UAV demuestran que Eagle-YOLO logra un equilibrio notable entre precisión y latencia. Específicamente, nuestra variante ligera Eagle-YOLO-T alcanza un 74.62% de AP, superando la robusta línea base RTMDet-T en un 1.67% mientras mantiene una velocidad de inferencia en tiempo real de 141 FPS en una GPU NVIDIA RTX 4090. Además, en el desafiante conjunto de datos Anti-UAV, nuestra variante Eagle-YOLOv8-M alcanza un impresionante 94.38% de AP50val, superando al estándar YOLOv8-M en un 2.83% y demostrando su eficacia para aplicaciones de vigilancia aérea desplegadas en el borde.
Descripción
La detección de objetos en tiempo real en imágenes de Vehículos Aéreos No Tripulados (UAV) presenta desafíos únicos, caracterizados principalmente por variaciones extremas de escala y un intenso desorden de fondo. Los detectores existentes a menudo sufren de homogeneización espectral, en la que los detalles críticos de alta frecuencia de objetivos pequeños se desvanecen por las señales de fondo dominantes durante la reducción de características. Para abordar esto, proponemos Eagle-YOLO, un marco de agregación de características dinámico diseñado para dominar estas complejidades sin comprometer la velocidad de inferencia. Introducimos tres innovaciones clave: (1) el Bloque de Granularidad Jerárquica (HG-Block), que emplea un camino de inyección de granularidad residual para funcionar como un ancla de detalles para objetos pequeños mientras acumula semántica para estructuras grandes; (2) el mecanismo de Modulación de Contexto entre Etapas (CSCM), que aprovecha una consulta de contexto global para filtrar la redundancia de fondo y recalibrar características a través de las etapas de la red; y (3) la estrategia de Convolución Heterogénea Adaptativa a la Escala (SAHC), que alinea dinámicamente los campos receptivos con la distribución de escala inherente de los datos aéreos. Experimentos extensos en el conjunto de datos DUT Anti-UAV demuestran que Eagle-YOLO logra un equilibrio notable entre precisión y latencia. Específicamente, nuestra variante ligera Eagle-YOLO-T alcanza un 74.62% de AP, superando la robusta línea base RTMDet-T en un 1.67% mientras mantiene una velocidad de inferencia en tiempo real de 141 FPS en una GPU NVIDIA RTX 4090. Además, en el desafiante conjunto de datos Anti-UAV, nuestra variante Eagle-YOLOv8-M alcanza un impresionante 94.38% de AP50val, superando al estándar YOLOv8-M en un 2.83% y demostrando su eficacia para aplicaciones de vigilancia aérea desplegadas en el borde.