RLRD-YOLO: Un algoritmo YOLOv8 mejorado para la detección de objetos pequeños desde la perspectiva de un vehículo aéreo no tripulado (UAV)
Autores: Li, Hanyun; Li, Yi; Xiao, Linsong; Zhang, Yunfeng; Cao, Lihua; Wu, Di
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
RLRD-YOLO: Un algoritmo YOLOv8 mejorado para la detección de objetos pequeños desde la perspectiva de un vehículo aéreo no tripulado (UAV)
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Detección de objetivos
RLRD-YOLO
Mecanismos de atención
Extracción de características
Objetivos pequeños
Resultados experimentales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
En las tareas de detección de objetivos con vehículos aéreos no tripulados (UAV), problemas como detecciones perdidas y erróneas ocurren con frecuencia debido al pequeño tamaño de los objetivos y la complejidad del fondo de la imagen. Para mejorar estos problemas, se propone un algoritmo de detección de objetivos mejorado llamado RLRD-YOLO, basado en You Only Look Once versión 8 (YOLOv8). Primero, la red de respaldo integra inicialmente el Módulo de Convolución de Atención de Campo Receptivo (RFCBAMConv), que combina el Módulo de Atención de Bloque Convolucional (CBAM) y la Convolución de Atención de Campo Receptivo (RFAConv). Esta integración mejora el problema de los pesos de atención compartidos en las características del campo receptivo. También combina mecanismos de atención en dimensiones tanto de canal como espaciales, mejorando la capacidad de extracción de características. Posteriormente, se integra la Atención de Núcleo a Gran Escala (LSKA) para optimizar aún más la capa de Agrupación Piramidal Espacial Rápida (SPPF). Esta mejora emplea un núcleo de convolución a gran escala para mejorar la captura de características complejas de pequeños objetivos y minimizar la interferencia del fondo. Para mejorar la fusión de características e integrar de manera efectiva los detalles de bajo nivel con la información semántica de alto nivel, la Red Piramidal de Características Generalizadas Reparametrizada (RepGFPN) reemplaza la arquitectura original en la red de cuello. Además, se añade una capa de detección de pequeños objetivos para mejorar la capacidad del modelo para percibir pequeños objetivos. Finalmente, la cabeza de detección se reemplaza por la Cabeza Dinámica, diseñada para mejorar la precisión de localización de pequeños objetivos en escenarios complejos al optimizar la Conciencia de Escala, la Conciencia Espacial y la Conciencia de Tarea. Los resultados experimentales mostraron que RLRD-YOLO superó a YOLOv8 en el conjunto de datos VisDrone2019, logrando mejoras del 12.2% en mAP@0.5 y del 8.4% en mAP@0.5:0.95. También superó otros métodos de detección de objetos ampliamente utilizados. Además, los resultados experimentales en el conjunto de datos HIT-HAV demuestran que RLRD-YOLO mantiene una excelente precisión en imágenes infrarrojas de UAV, validando su generalizabilidad en diversos escenarios. Finalmente, RLRD-YOLO fue implementado y validado en la plataforma aérea típica, Jetson Nano, proporcionando un soporte técnico confiable para la mejora de algoritmos de detección en escenarios aéreos y sus aplicaciones prácticas.
Descripción
En las tareas de detección de objetivos con vehículos aéreos no tripulados (UAV), problemas como detecciones perdidas y erróneas ocurren con frecuencia debido al pequeño tamaño de los objetivos y la complejidad del fondo de la imagen. Para mejorar estos problemas, se propone un algoritmo de detección de objetivos mejorado llamado RLRD-YOLO, basado en You Only Look Once versión 8 (YOLOv8). Primero, la red de respaldo integra inicialmente el Módulo de Convolución de Atención de Campo Receptivo (RFCBAMConv), que combina el Módulo de Atención de Bloque Convolucional (CBAM) y la Convolución de Atención de Campo Receptivo (RFAConv). Esta integración mejora el problema de los pesos de atención compartidos en las características del campo receptivo. También combina mecanismos de atención en dimensiones tanto de canal como espaciales, mejorando la capacidad de extracción de características. Posteriormente, se integra la Atención de Núcleo a Gran Escala (LSKA) para optimizar aún más la capa de Agrupación Piramidal Espacial Rápida (SPPF). Esta mejora emplea un núcleo de convolución a gran escala para mejorar la captura de características complejas de pequeños objetivos y minimizar la interferencia del fondo. Para mejorar la fusión de características e integrar de manera efectiva los detalles de bajo nivel con la información semántica de alto nivel, la Red Piramidal de Características Generalizadas Reparametrizada (RepGFPN) reemplaza la arquitectura original en la red de cuello. Además, se añade una capa de detección de pequeños objetivos para mejorar la capacidad del modelo para percibir pequeños objetivos. Finalmente, la cabeza de detección se reemplaza por la Cabeza Dinámica, diseñada para mejorar la precisión de localización de pequeños objetivos en escenarios complejos al optimizar la Conciencia de Escala, la Conciencia Espacial y la Conciencia de Tarea. Los resultados experimentales mostraron que RLRD-YOLO superó a YOLOv8 en el conjunto de datos VisDrone2019, logrando mejoras del 12.2% en mAP@0.5 y del 8.4% en mAP@0.5:0.95. También superó otros métodos de detección de objetos ampliamente utilizados. Además, los resultados experimentales en el conjunto de datos HIT-HAV demuestran que RLRD-YOLO mantiene una excelente precisión en imágenes infrarrojas de UAV, validando su generalizabilidad en diversos escenarios. Finalmente, RLRD-YOLO fue implementado y validado en la plataforma aérea típica, Jetson Nano, proporcionando un soporte técnico confiable para la mejora de algoritmos de detección en escenarios aéreos y sus aplicaciones prácticas.