SSMA-YOLO: Un modelo YOLO ligero con capacidades mejoradas de extracción y fusión de características para la detección de imágenes de barcos desde drones
Autores: Han, Yuhang; Guo, Jizhuang; Yang, Haoze; Guan, Renxiang; Zhang, Tianjiao
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
SSMA-YOLO: Un modelo YOLO ligero con capacidades mejoradas de extracción y fusión de características para la detección de imágenes de barcos desde drones
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Distancia única
ángulos
Teledetección por satélite
Barcos
Representación de características
Detección de barcos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Debido a la distancia y los ángulos únicos involucrados en la teledetección por satélite, los barcos aparecen con un área de píxel pequeña en las imágenes, lo que lleva a una representación insuficiente de las características. Esto resulta en un rendimiento subóptimo en la detección de barcos, incluyendo posibles omisiones y detecciones falsas. Además, la complejidad de los fondos en las imágenes de teledetección de barcos y la agrupación de embarcaciones también afectan negativamente la precisión de la detección de barcos. Por lo tanto, este artículo propone un modelo optimizado llamado SSMA-YOLO, basado en YOLOv8n. Primero, este artículo introduce una estructura SSC2f recién diseñada que incorpora mecanismos de atención de convolución espacial y de canal (SCConv) y de mejora grupal espacial (SGE). Este diseño reduce las redundancias espaciales y de canal dentro de la red neuronal, mejorando la precisión de detección mientras reduce simultáneamente el número de parámetros del modelo. En segundo lugar, la estructura MC2f recién diseñada emplea el mecanismo de atención colaborativa multidimensional (MCA) para modelar de manera eficiente las características espaciales y de canal, mejorando la eficiencia de reconocimiento en fondos complejos. Además, se diseñó la estructura de red de pirámide de características asintótica (AFPN) para fusionar progresivamente características de múltiples niveles de las capas de respaldo, superando los desafíos planteados por las variaciones de múltiples escalas. Los experimentos con el conjunto de datos de barcos muestran que el modelo propuesto logró un aumento del 4.4% en mAP en comparación con el modelo de detección de objetivos de una sola etapa de última generación YOLOv8n, al tiempo que también redujo el número de parámetros en un 23%.
Descripción
Debido a la distancia y los ángulos únicos involucrados en la teledetección por satélite, los barcos aparecen con un área de píxel pequeña en las imágenes, lo que lleva a una representación insuficiente de las características. Esto resulta en un rendimiento subóptimo en la detección de barcos, incluyendo posibles omisiones y detecciones falsas. Además, la complejidad de los fondos en las imágenes de teledetección de barcos y la agrupación de embarcaciones también afectan negativamente la precisión de la detección de barcos. Por lo tanto, este artículo propone un modelo optimizado llamado SSMA-YOLO, basado en YOLOv8n. Primero, este artículo introduce una estructura SSC2f recién diseñada que incorpora mecanismos de atención de convolución espacial y de canal (SCConv) y de mejora grupal espacial (SGE). Este diseño reduce las redundancias espaciales y de canal dentro de la red neuronal, mejorando la precisión de detección mientras reduce simultáneamente el número de parámetros del modelo. En segundo lugar, la estructura MC2f recién diseñada emplea el mecanismo de atención colaborativa multidimensional (MCA) para modelar de manera eficiente las características espaciales y de canal, mejorando la eficiencia de reconocimiento en fondos complejos. Además, se diseñó la estructura de red de pirámide de características asintótica (AFPN) para fusionar progresivamente características de múltiples niveles de las capas de respaldo, superando los desafíos planteados por las variaciones de múltiples escalas. Los experimentos con el conjunto de datos de barcos muestran que el modelo propuesto logró un aumento del 4.4% en mAP en comparación con el modelo de detección de objetivos de una sola etapa de última generación YOLOv8n, al tiempo que también redujo el número de parámetros en un 23%.