Red de pirámide de características de agregación residual a múltiples escalas para la detección de objetos
Autores: Wang, Hongyang; Wang, Tiejun
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Red de pirámide de características de agregación residual a múltiples escalas para la detección de objetos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Características multi-escala
Tareas de detección de objetos
Redes de Pirámide de Características
Información semántica
MSRA-FPN
Detección de objetos grandes
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 60
Citaciones: Sin citaciones
El uso efectivo de características multinivel sigue siendo un problema abierto para las tareas de detección de objetos. Recientemente, los detectores de objetos propuestos suelen utilizar Redes de Pirámide de Características (FPN) para fusionar características multinivel. Dado que las Redes de Pirámide de Características utilizan un enfoque de fusión de mapas de características relativamente simple, esto puede llevar a la pérdida o desalineación de información semántica en el proceso de fusión. Varios trabajos han demostrado que el uso de una estructura de abajo hacia arriba en una Red de Pirámide de Características puede acortar el camino de información entre las capas inferiores y la característica más superior, permitiendo un intercambio adecuado de información semántica de diferentes capas. Mejoramos aún más el camino de abajo hacia arriba proponiendo una Red de Pirámide de Características de agregación residual multinivel (MSRA-FPN), que utiliza un módulo residual de capa cruzada unidireccional para agregar características de múltiples capas de abajo hacia arriba en una estructura triangular hasta la capa más superior. Además, introducimos un Módulo de Squeeze y Excitación Residual para mitigar los efectos de aliasing que ocurren cuando se agregan características de diferentes capas. MSRA-FPN mejora la información semántica de los mapas de características de alto nivel, mitiga la degradación de la información durante la fusión de características y mejora la capacidad de detección del modelo para objetos grandes. Se demuestra experimentalmente que nuestro MSRA-FPN propuesto mejora el rendimiento de los tres modelos de referencia en un 0.5-1.9% en el conjunto de datos PASCAL VOC y también es bastante competitivo con otros métodos FPN de última generación. En el conjunto de datos MS COCO, nuestro método propuesto también puede mejorar el rendimiento del modelo de referencia en un 0.8% y el rendimiento del modelo de referencia para la detección de objetos grandes en un 1.8%. Para validar aún más la efectividad de MSRA-FPN para la detección de objetos grandes, construimos el Conjunto de Datos de Figuras Thangka y realizamos experimentos comparativos. Se demuestra experimentalmente que nuestro método propuesto mejora el rendimiento del modelo de referencia en un 2.9-4.7% en este conjunto de datos y puede llegar hasta un 71.2%.
Descripción
El uso efectivo de características multinivel sigue siendo un problema abierto para las tareas de detección de objetos. Recientemente, los detectores de objetos propuestos suelen utilizar Redes de Pirámide de Características (FPN) para fusionar características multinivel. Dado que las Redes de Pirámide de Características utilizan un enfoque de fusión de mapas de características relativamente simple, esto puede llevar a la pérdida o desalineación de información semántica en el proceso de fusión. Varios trabajos han demostrado que el uso de una estructura de abajo hacia arriba en una Red de Pirámide de Características puede acortar el camino de información entre las capas inferiores y la característica más superior, permitiendo un intercambio adecuado de información semántica de diferentes capas. Mejoramos aún más el camino de abajo hacia arriba proponiendo una Red de Pirámide de Características de agregación residual multinivel (MSRA-FPN), que utiliza un módulo residual de capa cruzada unidireccional para agregar características de múltiples capas de abajo hacia arriba en una estructura triangular hasta la capa más superior. Además, introducimos un Módulo de Squeeze y Excitación Residual para mitigar los efectos de aliasing que ocurren cuando se agregan características de diferentes capas. MSRA-FPN mejora la información semántica de los mapas de características de alto nivel, mitiga la degradación de la información durante la fusión de características y mejora la capacidad de detección del modelo para objetos grandes. Se demuestra experimentalmente que nuestro MSRA-FPN propuesto mejora el rendimiento de los tres modelos de referencia en un 0.5-1.9% en el conjunto de datos PASCAL VOC y también es bastante competitivo con otros métodos FPN de última generación. En el conjunto de datos MS COCO, nuestro método propuesto también puede mejorar el rendimiento del modelo de referencia en un 0.8% y el rendimiento del modelo de referencia para la detección de objetos grandes en un 1.8%. Para validar aún más la efectividad de MSRA-FPN para la detección de objetos grandes, construimos el Conjunto de Datos de Figuras Thangka y realizamos experimentos comparativos. Se demuestra experimentalmente que nuestro método propuesto mejora el rendimiento del modelo de referencia en un 2.9-4.7% en este conjunto de datos y puede llegar hasta un 71.2%.