Multiespectral object detection basado en fusión de características multinivel y modulación de características doble
Autores: Sun, Jin; Yin, Mingfeng; Wang, Zhiwei; Xie, Tao; Bei, Shaoyi
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Multiespectral object detection basado en fusión de características multinivel y modulación de características doble
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Multiespectral
Detección de objetos
Fusión de características
Objetos pequeños
Red
Visible-infrarrojo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
La detección de objetos multiespectrales es una tecnología crucial en el procesamiento de imágenes de teledetección, especialmente en entornos de poca luz. La mayoría de los métodos actuales extraen características a una sola escala, lo que resulta en la fusión de características inválidas y la incapacidad de detectar objetos pequeños. Para abordar estos problemas, proponemos una red de detección de objetos multiespectrales basada en la fusión de características multinivel y la modulación dual de características (GMD-YOLO). Primero, se utiliza una red novedosa CSPDarknet53 de doble canal para extraer características profundas de imágenes visibles-infrarrojas. Esta red incorpora un módulo Ghost, que genera mapas de características adicionales a través de una serie de operaciones lineales, logrando un equilibrio entre precisión y velocidad. En segundo lugar, se diseña el módulo de fusión de características multinivel (MLF) para utilizar información cruzada modal a través de la construcción de conexiones residuales jerárquicas. Este enfoque fortalece la complementariedad entre diferentes modalidades, permitiendo que la red mejore las capacidades de representación multiescala a un nivel de granularidad más refinado. Finalmente, se introduce una cabeza de modulación de características dual (DFM) para mejorar la detección de objetos pequeños. Esta cabeza desacoplada cumple de manera efectiva con los requisitos distintos de las tareas de clasificación y localización. GMD-YOLO se valida en tres conjuntos de datos públicos visibles-infrarrojos: DroneVehicle, KAIST y LLVIP. DroneVehicle y LLVIP lograron un mAP@0.5 del 78.0% y 98.0%, superando a los métodos de referencia en un 3.6% y 4.4%, respectivamente. KAIST exhibió un MR del 7.73% con un FPS de 61.7. Los resultados experimentales demostraron que nuestro método supera a los métodos avanzados existentes y muestra una fuerte robustez.
Descripción
La detección de objetos multiespectrales es una tecnología crucial en el procesamiento de imágenes de teledetección, especialmente en entornos de poca luz. La mayoría de los métodos actuales extraen características a una sola escala, lo que resulta en la fusión de características inválidas y la incapacidad de detectar objetos pequeños. Para abordar estos problemas, proponemos una red de detección de objetos multiespectrales basada en la fusión de características multinivel y la modulación dual de características (GMD-YOLO). Primero, se utiliza una red novedosa CSPDarknet53 de doble canal para extraer características profundas de imágenes visibles-infrarrojas. Esta red incorpora un módulo Ghost, que genera mapas de características adicionales a través de una serie de operaciones lineales, logrando un equilibrio entre precisión y velocidad. En segundo lugar, se diseña el módulo de fusión de características multinivel (MLF) para utilizar información cruzada modal a través de la construcción de conexiones residuales jerárquicas. Este enfoque fortalece la complementariedad entre diferentes modalidades, permitiendo que la red mejore las capacidades de representación multiescala a un nivel de granularidad más refinado. Finalmente, se introduce una cabeza de modulación de características dual (DFM) para mejorar la detección de objetos pequeños. Esta cabeza desacoplada cumple de manera efectiva con los requisitos distintos de las tareas de clasificación y localización. GMD-YOLO se valida en tres conjuntos de datos públicos visibles-infrarrojos: DroneVehicle, KAIST y LLVIP. DroneVehicle y LLVIP lograron un mAP@0.5 del 78.0% y 98.0%, superando a los métodos de referencia en un 3.6% y 4.4%, respectivamente. KAIST exhibió un MR del 7.73% con un FPS de 61.7. Los resultados experimentales demostraron que nuestro método supera a los métodos avanzados existentes y muestra una fuerte robustez.