Ha-RoadFormer: Transformador de Atención Híbrido con Multi-Rama para la Segmentación de Carreteras Densas de Alta Resolución a Gran Escala
Autores: Zhang, Zheng; Miao, Chunle; Liu, Changan; Tian, Qing; Zhou, Yongsheng
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Ha-RoadFormer: Transformador de Atención Híbrido con Multi-Rama para la Segmentación de Carreteras Densas de Alta Resolución a Gran Escala
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Segmentación de carreteras
Mecanismo de atención híbrido
Modelo transformer
Imágenes de teledetección
Módulo de incrustación de parches a múltiples escalas
Redes neuronales convolucionales
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 28
Citaciones: Sin citaciones
La segmentación de carreteras es una de las tareas esenciales en teledetección. Las imágenes de teledetección de alta resolución a gran escala tienen originalmente tamaños de píxel más grandes que las imágenes naturales, mientras que los modelos existentes basados en Transformer tienen un alto costo computacional de complejidad cuadrada, lo que conlleva a un entrenamiento de modelo más extenso y un tiempo de inferencia más largo. Inspirado en el modelo Transformer de texto largo, este artículo propone un novedoso mecanismo de atención híbrido para mejorar la velocidad de inferencia del modelo. Al calcular varias diagonales y bloques aleatorios de la matriz de atención, la atención híbrida logra una complejidad temporal lineal en la secuencia de tokens. Al utilizar la superposición de la atención adyacente y aleatoria, la atención híbrida introduce el sesgo inductivo similar a las redes neuronales convolucionales (CNN) y conserva la capacidad de adquirir dependencias a larga distancia. Además, el resultado denso de segmentación de carreteras de imágenes de teledetección todavía tiene el problema de falta de continuidad suficiente. Sin embargo, la representación de características multi-escala es un medio efectivo en la red basada en CNN. Inspirado en esto, proponemos un módulo de incrustación de parches multi-escala, que divide las imágenes en parches con diferentes escalas para obtener representaciones de características de grueso a fino. Los experimentos en el conjunto de datos de Massachusetts muestran que el propuesto HA-RoadFormer podría preservar efectivamente la integridad de los resultados de segmentación de carreteras, logrando un mayor Índice de Intersección sobre Unión (IoU) del 67.36% en comparación con otros métodos de última generación (SOTA). Al mismo tiempo, la velocidad de inferencia también se ha mejorado considerablemente en comparación con otros modelos basados en Transformer.
Descripción
La segmentación de carreteras es una de las tareas esenciales en teledetección. Las imágenes de teledetección de alta resolución a gran escala tienen originalmente tamaños de píxel más grandes que las imágenes naturales, mientras que los modelos existentes basados en Transformer tienen un alto costo computacional de complejidad cuadrada, lo que conlleva a un entrenamiento de modelo más extenso y un tiempo de inferencia más largo. Inspirado en el modelo Transformer de texto largo, este artículo propone un novedoso mecanismo de atención híbrido para mejorar la velocidad de inferencia del modelo. Al calcular varias diagonales y bloques aleatorios de la matriz de atención, la atención híbrida logra una complejidad temporal lineal en la secuencia de tokens. Al utilizar la superposición de la atención adyacente y aleatoria, la atención híbrida introduce el sesgo inductivo similar a las redes neuronales convolucionales (CNN) y conserva la capacidad de adquirir dependencias a larga distancia. Además, el resultado denso de segmentación de carreteras de imágenes de teledetección todavía tiene el problema de falta de continuidad suficiente. Sin embargo, la representación de características multi-escala es un medio efectivo en la red basada en CNN. Inspirado en esto, proponemos un módulo de incrustación de parches multi-escala, que divide las imágenes en parches con diferentes escalas para obtener representaciones de características de grueso a fino. Los experimentos en el conjunto de datos de Massachusetts muestran que el propuesto HA-RoadFormer podría preservar efectivamente la integridad de los resultados de segmentación de carreteras, logrando un mayor Índice de Intersección sobre Unión (IoU) del 67.36% en comparación con otros métodos de última generación (SOTA). Al mismo tiempo, la velocidad de inferencia también se ha mejorado considerablemente en comparación con otros modelos basados en Transformer.