Segmentación semántica de imágenes de UAV basada en el marco de trabajo Transformer con información de contexto

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Segmentación semántica de imágenes de UAV basada en el marco de trabajo Transformer con información de contexto

Autores: Kumar, Satyawant; Kumar, Abhishek; Lee, Dong-Gyu

Idioma: Inglés

Editor: MDPI

Año: 2022

Descargar PDF

Acceso abierto

Artículo científico

2022

Segmentación semántica de imágenes de UAV basada en el marco de trabajo Transformer con información de contexto

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Avances

Vehículos aéreos no tripulados

Segmentación semántica

Arquitectura basada en transformadores

Información contextual global

Detalles locales.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 24

Citaciones: Sin citaciones

Con los avances en la tecnología de Vehículos Aéreos No Tripulados (UAVs), las imágenes aéreas con enormes variaciones en la apariencia de objetos y fondos complejos han abierto una nueva dirección de trabajo para los investigadores. La tarea de segmentación semántica se vuelve más desafiante al capturar características inherentes en el contexto global y local de las imágenes de UAV. En este documento, propusimos una arquitectura codificador-decodificador basada en transformadores para abordar este problema en la segmentación precisa de imágenes de UAV. La representación de características inherentes de las imágenes de UAV se explota en la red codificadora utilizando un marco de transformador basado en autoatención para capturar información contextual global a larga distancia. Se propone un módulo de Fusión de Información Espacial de Token (TSIF) para aprovechar un mecanismo de convolución que puede capturar detalles locales. Fusiona los detalles contextuales locales sobre los píxeles vecinos con la red codificadora y genera representaciones de características semánticamente ricas. Propusimos una red decodificadora que procesa la salida de la red codificadora para la predicción final a nivel semántico de cada píxel. Demostramos la efectividad de esta arquitectura en los conjuntos de datos UAVid y Urban Drone, donde logramos un mIoU del 61,93% y 73,65%, respectivamente.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro