Segmentación semántica de imágenes de UAV basada en el marco de trabajo Transformer con información de contexto
Autores: Kumar, Satyawant; Kumar, Abhishek; Lee, Dong-Gyu
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Segmentación semántica de imágenes de UAV basada en el marco de trabajo Transformer con información de contexto
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Avances
Vehículos aéreos no tripulados
Segmentación semántica
Arquitectura basada en transformadores
Información contextual global
Detalles locales.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Con los avances en la tecnología de Vehículos Aéreos No Tripulados (UAVs), las imágenes aéreas con enormes variaciones en la apariencia de objetos y fondos complejos han abierto una nueva dirección de trabajo para los investigadores. La tarea de segmentación semántica se vuelve más desafiante al capturar características inherentes en el contexto global y local de las imágenes de UAV. En este documento, propusimos una arquitectura codificador-decodificador basada en transformadores para abordar este problema en la segmentación precisa de imágenes de UAV. La representación de características inherentes de las imágenes de UAV se explota en la red codificadora utilizando un marco de transformador basado en autoatención para capturar información contextual global a larga distancia. Se propone un módulo de Fusión de Información Espacial de Token (TSIF) para aprovechar un mecanismo de convolución que puede capturar detalles locales. Fusiona los detalles contextuales locales sobre los píxeles vecinos con la red codificadora y genera representaciones de características semánticamente ricas. Propusimos una red decodificadora que procesa la salida de la red codificadora para la predicción final a nivel semántico de cada píxel. Demostramos la efectividad de esta arquitectura en los conjuntos de datos UAVid y Urban Drone, donde logramos un mIoU del 61,93% y 73,65%, respectivamente.
Descripción
Con los avances en la tecnología de Vehículos Aéreos No Tripulados (UAVs), las imágenes aéreas con enormes variaciones en la apariencia de objetos y fondos complejos han abierto una nueva dirección de trabajo para los investigadores. La tarea de segmentación semántica se vuelve más desafiante al capturar características inherentes en el contexto global y local de las imágenes de UAV. En este documento, propusimos una arquitectura codificador-decodificador basada en transformadores para abordar este problema en la segmentación precisa de imágenes de UAV. La representación de características inherentes de las imágenes de UAV se explota en la red codificadora utilizando un marco de transformador basado en autoatención para capturar información contextual global a larga distancia. Se propone un módulo de Fusión de Información Espacial de Token (TSIF) para aprovechar un mecanismo de convolución que puede capturar detalles locales. Fusiona los detalles contextuales locales sobre los píxeles vecinos con la red codificadora y genera representaciones de características semánticamente ricas. Propusimos una red decodificadora que procesa la salida de la red codificadora para la predicción final a nivel semántico de cada píxel. Demostramos la efectividad de esta arquitectura en los conjuntos de datos UAVid y Urban Drone, donde logramos un mIoU del 61,93% y 73,65%, respectivamente.