Una Red Ligera para la Detección de Objetos Basada en la Fusión de Características Multi-Escala de UAV
Autores: Deng, Sheng; Wan, Yaping
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Una Red Ligera para la Detección de Objetos Basada en la Fusión de Características Multi-Escala de UAV
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Problemas
Imágenes aéreas de drones
YOLOv8s
C2f_SEPConv
Atención Cruzada Multiescala
Focal-EIoU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Para abordar los problemas de tamaños de objetivos pequeños, detecciones fallidas y falsas alarmas en imágenes aéreas de drones, junto con las limitaciones impuestas por los recursos de hardware limitados durante el despliegue del modelo, se propone un enfoque de detección de objetos simplificado para mejorar el rendimiento de YOLOv8s. Este enfoque introduce un nuevo módulo, C2f_SEPConv, que incorpora Convolución Parcial (PConv) y mecanismos de atención de canal (Squeeze-and-Excitation, SE), reemplazando efectivamente el cuello de botella anterior y minimizando tanto el conteo de parámetros del modelo como las demandas computacionales. Las modificaciones en la cabeza de detección permiten que funcione de manera más efectiva en escenarios con objetivos pequeños en imágenes aéreas. Para capturar información de objetos a múltiples escalas, se incorpora un mecanismo de Atención Cruzada Multiescalar (MSCA) dentro de la red de fondo. La red de cuello integra un Bloque de Fusión Multiescalar (MSFB) para combinar características de múltiples niveles, aumentando aún más la precisión de detección. Además, la función de pérdida Focal-EIoU reemplaza la función de pérdida CIoU tradicional para abordar los desafíos relacionados con la regresión de objetivos pequeños. Las evaluaciones realizadas en el conjunto de datos VisDrone revelan que el método propuesto mejora la Precisión, el Recall, mAP0.5 y mAP0.5:0.95 en un 4.4%, 5.6%, 6.4% y 4%, respectivamente, en comparación con YOLOv8s, con una reducción del 28.3% en los parámetros. En el conjunto de datos DOTAv1.0, se observa una mejora del 2.1% en mAP0.5.
Descripción
Para abordar los problemas de tamaños de objetivos pequeños, detecciones fallidas y falsas alarmas en imágenes aéreas de drones, junto con las limitaciones impuestas por los recursos de hardware limitados durante el despliegue del modelo, se propone un enfoque de detección de objetos simplificado para mejorar el rendimiento de YOLOv8s. Este enfoque introduce un nuevo módulo, C2f_SEPConv, que incorpora Convolución Parcial (PConv) y mecanismos de atención de canal (Squeeze-and-Excitation, SE), reemplazando efectivamente el cuello de botella anterior y minimizando tanto el conteo de parámetros del modelo como las demandas computacionales. Las modificaciones en la cabeza de detección permiten que funcione de manera más efectiva en escenarios con objetivos pequeños en imágenes aéreas. Para capturar información de objetos a múltiples escalas, se incorpora un mecanismo de Atención Cruzada Multiescalar (MSCA) dentro de la red de fondo. La red de cuello integra un Bloque de Fusión Multiescalar (MSFB) para combinar características de múltiples niveles, aumentando aún más la precisión de detección. Además, la función de pérdida Focal-EIoU reemplaza la función de pérdida CIoU tradicional para abordar los desafíos relacionados con la regresión de objetivos pequeños. Las evaluaciones realizadas en el conjunto de datos VisDrone revelan que el método propuesto mejora la Precisión, el Recall, mAP0.5 y mAP0.5:0.95 en un 4.4%, 5.6%, 6.4% y 4%, respectivamente, en comparación con YOLOv8s, con una reducción del 28.3% en los parámetros. En el conjunto de datos DOTAv1.0, se observa una mejora del 2.1% en mAP0.5.