HawkEye Conv-Driven YOLOv10 con Redes de Pirámide de Características Avanzadas para la Detección de Objetos Pequeños en Imágenes de UAV
Autores: Li, Yihang; Yang, Wenzhong; Wang, Liejun; Tao, Xiaoming; Yin, Yabo; Chen, Danny
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
HawkEye Conv-Driven YOLOv10 con Redes de Pirámide de Características Avanzadas para la Detección de Objetos Pequeños en Imágenes de UAV
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Algoritmos de visión por computadora
Detección de objetos pequeños
Operadores de convolución
HawkEye Conv (HEConv)
Información espacial
Desplazamientos dinámicos
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los algoritmos de visión por computadora actuales se centran en diseñar arquitecturas de red y funciones de pérdida adecuadas para ajustarse a los datos de entrenamiento. Sin embargo, la precisión en la detección de objetos pequeños sigue siendo inferior a la de otras escalas, y el diseño de los operadores de convolución limita el rendimiento del modelo. Para la detección de objetos pequeños con UAV, las convoluciones estándar, debido a su tamaño de núcleo fijo, no pueden capturar de manera adaptativa la información espacial de los objetos pequeños. Muchas variantes de convolución tienen puntos de muestreo dispersos, lo que lleva a bordes borrosos y a una precisión reducida. En respuesta, proponemos HawkEye Conv (HEConv), que utiliza muestreo estable y desplazamientos dinámicos con selección aleatoria. Al variar el diseño del núcleo de convolución, HEConv reduce la brecha de precisión entre objetos pequeños y más grandes, al tiempo que ofrece múltiples versiones y capacidades de plug-and-play. También desarrollamos módulos de HawkEye Spatial Pyramid Pooling y Gradual Dynamic Feature Pyramid Network para validar HEConv. Los experimentos en los conjuntos de datos agrícolas RFRB y urbanos VisDrone2019 demuestran que, en comparación con YOLOv10, nuestro modelo mejora el AP50 en un 11.9% y un 6.2%, el APS en un 11.5% y un 5%, y el F1-score en un 5% y un 7%. Es importante destacar que mejora la detección de objetos pequeños sin sacrificar la precisión de los objetos grandes, reduciendo así la brecha de rendimiento multi-escala.
Descripción
Los algoritmos de visión por computadora actuales se centran en diseñar arquitecturas de red y funciones de pérdida adecuadas para ajustarse a los datos de entrenamiento. Sin embargo, la precisión en la detección de objetos pequeños sigue siendo inferior a la de otras escalas, y el diseño de los operadores de convolución limita el rendimiento del modelo. Para la detección de objetos pequeños con UAV, las convoluciones estándar, debido a su tamaño de núcleo fijo, no pueden capturar de manera adaptativa la información espacial de los objetos pequeños. Muchas variantes de convolución tienen puntos de muestreo dispersos, lo que lleva a bordes borrosos y a una precisión reducida. En respuesta, proponemos HawkEye Conv (HEConv), que utiliza muestreo estable y desplazamientos dinámicos con selección aleatoria. Al variar el diseño del núcleo de convolución, HEConv reduce la brecha de precisión entre objetos pequeños y más grandes, al tiempo que ofrece múltiples versiones y capacidades de plug-and-play. También desarrollamos módulos de HawkEye Spatial Pyramid Pooling y Gradual Dynamic Feature Pyramid Network para validar HEConv. Los experimentos en los conjuntos de datos agrícolas RFRB y urbanos VisDrone2019 demuestran que, en comparación con YOLOv10, nuestro modelo mejora el AP50 en un 11.9% y un 6.2%, el APS en un 11.5% y un 5%, y el F1-score en un 5% y un 7%. Es importante destacar que mejora la detección de objetos pequeños sin sacrificar la precisión de los objetos grandes, reduciendo así la brecha de rendimiento multi-escala.