Red de Fusión Cruzada Multicapa Guiada por Pares para el Reconocimiento de Imágenes de Aves
Autores: Lei, Jingsheng; Jin, Yao; Huang, Liya; Ji, Yuan; Yang, Shengying
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Red de Fusión Cruzada Multicapa Guiada por Pares para el Reconocimiento de Imágenes de Aves
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Identificación de aves
Recopilación de datos
Reconocimiento de aves
Red de Unión Cruzada Progresiva
Representación de características
Localización
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 45
Citaciones: Sin citaciones
La identificación de aves es el primer paso para recolectar datos sobre la diversidad y abundancia de aves, lo que también ayuda en la investigación sobre la distribución de aves y las mediciones de población. La mayoría de las investigaciones han construido modelos de entrenamiento de extremo a extremo para la tarea de detección de aves a través de CNNs o modelos atentos, pero muchos tienen un rendimiento insatisfactorio en el reconocimiento de aves detallado. Las tareas de reconocimiento de aves están altamente influenciadas por factores, incluida la apariencia similar de diferentes subcategorías, posturas de aves diversas y otros factores de interferencia como ramas de árboles y hojas del fondo. Para abordar este desafío, proponemos la Red de Unión Cruzada Progresiva (PC-Net) para capturar partes más sutiles con mapas de atención de bajo nivel. Basado en el intercambio de información entre capas y el aprendizaje por pares, el método propuesto utiliza dos módulos para mejorar la representación de características y la localización. En primer lugar, utiliza información de bajo y alto nivel para la fusión de características entre capas, lo que permite a la red extraer características más completas y discriminativas. En segundo lugar, la red incorpora una localización semántica profunda para identificar y mejorar las regiones más relevantes en las imágenes. Además, la red está diseñada con una pérdida de guía semántica para mejorar su generalización para poses variables de aves. El PC-Net fue evaluado en un conjunto de datos de aves ampliamente utilizado (CUB-200-2011), que contiene 200 subcategorías de aves. Los resultados demuestran que el PC-Net logró una impresionante precisión de reconocimiento del 89.2%, superando así a los métodos mantenidos en la identificación de subcategorías de aves. También logramos resultados competitivos en otros dos conjuntos de datos con datos sobre autos y aviones. Los resultados indicaron que el PC-Net mejora la precisión del reconocimiento de aves diversas, así como otros escenarios de reconocimiento detallado.
Descripción
La identificación de aves es el primer paso para recolectar datos sobre la diversidad y abundancia de aves, lo que también ayuda en la investigación sobre la distribución de aves y las mediciones de población. La mayoría de las investigaciones han construido modelos de entrenamiento de extremo a extremo para la tarea de detección de aves a través de CNNs o modelos atentos, pero muchos tienen un rendimiento insatisfactorio en el reconocimiento de aves detallado. Las tareas de reconocimiento de aves están altamente influenciadas por factores, incluida la apariencia similar de diferentes subcategorías, posturas de aves diversas y otros factores de interferencia como ramas de árboles y hojas del fondo. Para abordar este desafío, proponemos la Red de Unión Cruzada Progresiva (PC-Net) para capturar partes más sutiles con mapas de atención de bajo nivel. Basado en el intercambio de información entre capas y el aprendizaje por pares, el método propuesto utiliza dos módulos para mejorar la representación de características y la localización. En primer lugar, utiliza información de bajo y alto nivel para la fusión de características entre capas, lo que permite a la red extraer características más completas y discriminativas. En segundo lugar, la red incorpora una localización semántica profunda para identificar y mejorar las regiones más relevantes en las imágenes. Además, la red está diseñada con una pérdida de guía semántica para mejorar su generalización para poses variables de aves. El PC-Net fue evaluado en un conjunto de datos de aves ampliamente utilizado (CUB-200-2011), que contiene 200 subcategorías de aves. Los resultados demuestran que el PC-Net logró una impresionante precisión de reconocimiento del 89.2%, superando así a los métodos mantenidos en la identificación de subcategorías de aves. También logramos resultados competitivos en otros dos conjuntos de datos con datos sobre autos y aviones. Los resultados indicaron que el PC-Net mejora la precisión del reconocimiento de aves diversas, así como otros escenarios de reconocimiento detallado.