Afe-yolov8: un modelo novedoso de detección de objetos para escenas de vehículos aéreos no tripulados con mejora adaptativa de características
Autores: Wang, Shijie; Zhang, Zekun; Chao, Qingqing; Yu, Teng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Afe-yolov8: un modelo novedoso de detección de objetos para escenas de vehículos aéreos no tripulados con mejora adaptativa de características
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Detección de objetos
Vehículo aéreo no tripulado
AFE-YOLOv8
MNFM
AFEM
RFEM
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
La detección de objetos en escenas de vehículos aéreos no tripulados (UAV) es una tarea desafiante debido a las diferentes escalas y complejidades de los objetivos. Para abordar esto, proponemos un nuevo modelo de detección de objetos, AFE-YOLOv8, que integra tres módulos innovadores: el Módulo de Fusión No Lineal a Múltiples Escalas (MNFM), el Módulo de Mejora de Características Adaptativas (AFEM) y el Módulo de Expansión de Campo Receptivo (RFEM). El MNFM introduce un mapeo no lineal al explotar la propiedad de que la convolución deformable puede ajustar dinámicamente la forma del núcleo de convolución según la forma del objetivo, y mejora efectivamente la capacidad de extracción de características de la red base al integrar mapas de características a múltiples escalas de diferentes ramas de mapeo. Mientras tanto, el AFEM introduce un factor de fusión adaptativo, y a través del factor de fusión, integra de forma adaptativa las características de objetivos pequeños contenidas en los mapas de características de diferentes ramas de detección en la rama de detección de objetivos pequeños, mejorando así la expresión de las características de objetivos pequeños contenidas en los mapas de características de la rama de detección de objetivos pequeños. Además, el RFEM expande el campo receptivo de los mapas de características de las ramas de detección de objetivos de gran y mediana escala a través de convoluciones apiladas, para que el campo receptivo del modelo cubra todo el objetivo, y así aprender características más ricas y completas del objetivo. Los resultados experimentales demuestran el rendimiento superior del modelo propuesto en comparación con la línea base en la detección de objetos de varias escalas. En el conjunto de datos VisDrone, el modelo propuesto logra un aumento del 4.5% en la precisión media promedio (mAP) y una mejora del 5.45% en la precisión promedio con un umbral de IOU de 0.5 (AP50). Además, experimentos de ablación realizados en el desafiante conjunto de datos DOTA muestran la robustez y capacidades de generalización del modelo.
Descripción
La detección de objetos en escenas de vehículos aéreos no tripulados (UAV) es una tarea desafiante debido a las diferentes escalas y complejidades de los objetivos. Para abordar esto, proponemos un nuevo modelo de detección de objetos, AFE-YOLOv8, que integra tres módulos innovadores: el Módulo de Fusión No Lineal a Múltiples Escalas (MNFM), el Módulo de Mejora de Características Adaptativas (AFEM) y el Módulo de Expansión de Campo Receptivo (RFEM). El MNFM introduce un mapeo no lineal al explotar la propiedad de que la convolución deformable puede ajustar dinámicamente la forma del núcleo de convolución según la forma del objetivo, y mejora efectivamente la capacidad de extracción de características de la red base al integrar mapas de características a múltiples escalas de diferentes ramas de mapeo. Mientras tanto, el AFEM introduce un factor de fusión adaptativo, y a través del factor de fusión, integra de forma adaptativa las características de objetivos pequeños contenidas en los mapas de características de diferentes ramas de detección en la rama de detección de objetivos pequeños, mejorando así la expresión de las características de objetivos pequeños contenidas en los mapas de características de la rama de detección de objetivos pequeños. Además, el RFEM expande el campo receptivo de los mapas de características de las ramas de detección de objetivos de gran y mediana escala a través de convoluciones apiladas, para que el campo receptivo del modelo cubra todo el objetivo, y así aprender características más ricas y completas del objetivo. Los resultados experimentales demuestran el rendimiento superior del modelo propuesto en comparación con la línea base en la detección de objetos de varias escalas. En el conjunto de datos VisDrone, el modelo propuesto logra un aumento del 4.5% en la precisión media promedio (mAP) y una mejora del 5.45% en la precisión promedio con un umbral de IOU de 0.5 (AP50). Además, experimentos de ablación realizados en el desafiante conjunto de datos DOTA muestran la robustez y capacidades de generalización del modelo.