Descubrimiento de Categorías Generalizadas en la Clasificación de Imágenes Aéreas a través de la Atención por Ranuras
Autores: Zhou, Yifan; Zhu, Haoran; Zhang, Yan; Liang, Shuo; Wang, Yujing; Yang, Wen
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Descubrimiento de Categorías Generalizadas en la Clasificación de Imágenes Aéreas a través de la Atención por Ranuras
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Robótica
Palabras clave
Imágenes aéreas
Metodologías de clasificación
Descubrimiento de categorías generalizadas
Basado en atención de ranura
Marco de aprendizaje contrastivo
Precisión de reconocimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Las imágenes aéreas registran el dinámico terreno terrestre, reflejando cambios en los patrones de cobertura del suelo causados por procesos naturales y actividades humanas. No obstante, las metodologías de clasificación de imágenes aéreas predominantes funcionan principalmente dentro de un marco de conjunto cerrado, enfrentando así desafíos al identificarse con escenas emergentes. Para abordar esto, este documento explora un escenario de reconocimiento de imágenes aéreas en el que un conjunto de datos comprende tanto imágenes aéreas etiquetadas como no etiquetadas, con la intención de clasificar todas las imágenes dentro del subconjunto no etiquetado, denominado Descubrimiento de Categorías Generalizado (GCD). Es notable que las imágenes no etiquetadas pueden pertenecer a clases etiquetadas o representar clases nuevas. Específicamente, primero desarrollamos un marco de aprendizaje contrastivo basado en los algoritmos de vanguardia en GCD. Basándonos en las características multi-objetos de las imágenes aéreas, luego proponemos un proceso de entrenamiento GCD basado en atención de ranuras (Slot-GCD) que contrasta el aprendizaje tanto a nivel de objeto como de imagen. Desacopla múltiples características locales de objetos de los mapas de características utilizando ranuras y luego reconstruye la característica semántica general de la imagen basada en las puntuaciones de confianza de las ranuras y el mapa de características. Finalmente, estas características a nivel de objeto e imagen se introducen en el módulo de aprendizaje contrastivo para permitir que el modelo aprenda características semánticas de imagen más precisas. Evaluaciones exhaustivas en tres conjuntos de datos públicos de imágenes aéreas destacan la superioridad de nuestro enfoque sobre los métodos de última generación. En particular, Slot-GCD logra una precisión de reconocimiento del 91.5% para clases antiguas conocidas y del 81.9% para datos de clases nuevas desconocidas en el conjunto de datos AID.
Descripción
Las imágenes aéreas registran el dinámico terreno terrestre, reflejando cambios en los patrones de cobertura del suelo causados por procesos naturales y actividades humanas. No obstante, las metodologías de clasificación de imágenes aéreas predominantes funcionan principalmente dentro de un marco de conjunto cerrado, enfrentando así desafíos al identificarse con escenas emergentes. Para abordar esto, este documento explora un escenario de reconocimiento de imágenes aéreas en el que un conjunto de datos comprende tanto imágenes aéreas etiquetadas como no etiquetadas, con la intención de clasificar todas las imágenes dentro del subconjunto no etiquetado, denominado Descubrimiento de Categorías Generalizado (GCD). Es notable que las imágenes no etiquetadas pueden pertenecer a clases etiquetadas o representar clases nuevas. Específicamente, primero desarrollamos un marco de aprendizaje contrastivo basado en los algoritmos de vanguardia en GCD. Basándonos en las características multi-objetos de las imágenes aéreas, luego proponemos un proceso de entrenamiento GCD basado en atención de ranuras (Slot-GCD) que contrasta el aprendizaje tanto a nivel de objeto como de imagen. Desacopla múltiples características locales de objetos de los mapas de características utilizando ranuras y luego reconstruye la característica semántica general de la imagen basada en las puntuaciones de confianza de las ranuras y el mapa de características. Finalmente, estas características a nivel de objeto e imagen se introducen en el módulo de aprendizaje contrastivo para permitir que el modelo aprenda características semánticas de imagen más precisas. Evaluaciones exhaustivas en tres conjuntos de datos públicos de imágenes aéreas destacan la superioridad de nuestro enfoque sobre los métodos de última generación. En particular, Slot-GCD logra una precisión de reconocimiento del 91.5% para clases antiguas conocidas y del 81.9% para datos de clases nuevas desconocidas en el conjunto de datos AID.