Transformador de Visión de Pirámide de Características Mejorado para Segmentación Semántica en el Corpus Landsat-8 de Tailandia
Autores: Intarat, Kritchayan; Rakwatin, Preesan; Panboonyuen, Teerapong
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Transformador de Visión de Pirámide de Características Mejorado para Segmentación Semántica en el Corpus Landsat-8 de Tailandia
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Segmentación semántica
Datos de Landsat-8
Transformador de visión en pirámide
Sistema de detección de objetos
Desafío de Landsat-8 en Tailandia
Puntuaciones F1
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
La segmentación semántica en datos de Landsat-8 es crucial en la integración de datos diversos, permitiendo a los investigadores lograr una mayor productividad y menores costos. Esta investigación tuvo como objetivo mejorar la estructura versátil para la predicción densa sin convoluciones, utilizando específicamente el transformador de visión piramidal (PRM-VS-TM) para incorporar mecanismos de atención a través de varios mapas de características. Además, el PRM-VS-TM construye un sistema de detección de objetos de extremo a extremo sin convoluciones y utiliza componentes hechos a mano, como anclajes densos y suspensión no máxima (NMS). El presente estudio se llevó a cabo en un conjunto de datos privado, es decir, el desafío de Landsat-8 de Tailandia. Hay tres líneas base: DeepLab, Swin Transformer (Swin TF) y PRM-VS-TM. Los resultados indican que el modelo propuesto supera significativamente todas las líneas base actuales en el corpus de Landsat-8 de Tailandia, proporcionando puntuaciones F1 superiores al 80% en casi todas las categorías. Finalmente, demostramos que nuestro modelo, sin utilizar configuraciones preentrenadas ni ningún procesamiento posterior adicional, puede superar los métodos actuales de vanguardia (SOTA) tanto para las clases de agricultura como de bosques.
Descripción
La segmentación semántica en datos de Landsat-8 es crucial en la integración de datos diversos, permitiendo a los investigadores lograr una mayor productividad y menores costos. Esta investigación tuvo como objetivo mejorar la estructura versátil para la predicción densa sin convoluciones, utilizando específicamente el transformador de visión piramidal (PRM-VS-TM) para incorporar mecanismos de atención a través de varios mapas de características. Además, el PRM-VS-TM construye un sistema de detección de objetos de extremo a extremo sin convoluciones y utiliza componentes hechos a mano, como anclajes densos y suspensión no máxima (NMS). El presente estudio se llevó a cabo en un conjunto de datos privado, es decir, el desafío de Landsat-8 de Tailandia. Hay tres líneas base: DeepLab, Swin Transformer (Swin TF) y PRM-VS-TM. Los resultados indican que el modelo propuesto supera significativamente todas las líneas base actuales en el corpus de Landsat-8 de Tailandia, proporcionando puntuaciones F1 superiores al 80% en casi todas las categorías. Finalmente, demostramos que nuestro modelo, sin utilizar configuraciones preentrenadas ni ningún procesamiento posterior adicional, puede superar los métodos actuales de vanguardia (SOTA) tanto para las clases de agricultura como de bosques.