TGSNet: fusión de características de múltiples campos para la segmentación de regiones de vidrio utilizando transformadores
Autores: Hu, Xiaohang; Gao, Rui; Yang, Seungjun; Cho, Kyungeun
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
TGSNet: fusión de características de múltiples campos para la segmentación de regiones de vidrio utilizando transformadores
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Detectando
Vidrio
Regiones
Imagen RGB
Características
Segmentación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 19
Citaciones: Sin citaciones
El vidrio es un objeto común en entornos de vida, pero detectarlo puede ser difícil debido a la reflexión y refracción de varios colores de luz en diferentes entornos; incluso a veces los humanos no pueden detectar el vidrio. Actualmente, se utilizan muchos métodos para detectar vidrio, pero la mayoría dependen de otros sensores, que son costosos y tienen dificultades para recopilar datos. Este estudio tiene como objetivo resolver el problema de detectar regiones de vidrio en una sola imagen RGB concatenando características contextuales de múltiples campos receptivos y proponiendo un nuevo algoritmo de fusión de características mejorado. Para ello, primero construimos un módulo de atención contextual para extraer características de la columna vertebral a través de un enfoque de autoatención. Luego proponemos una arquitectura de segmentación semántica profunda basada en VIT llamada MFT, que asocia características de campo receptivo multinivel y conserva la información de características capturada por cada nivel de características. Se muestra experimentalmente que nuestro método propuesto funciona mejor en conjuntos de datos de detección de vidrio existentes que varios métodos de detección de vidrio y objetos transparentes de última generación, lo que demuestra plenamente el mejor rendimiento de nuestro TGSNet.
Descripción
El vidrio es un objeto común en entornos de vida, pero detectarlo puede ser difícil debido a la reflexión y refracción de varios colores de luz en diferentes entornos; incluso a veces los humanos no pueden detectar el vidrio. Actualmente, se utilizan muchos métodos para detectar vidrio, pero la mayoría dependen de otros sensores, que son costosos y tienen dificultades para recopilar datos. Este estudio tiene como objetivo resolver el problema de detectar regiones de vidrio en una sola imagen RGB concatenando características contextuales de múltiples campos receptivos y proponiendo un nuevo algoritmo de fusión de características mejorado. Para ello, primero construimos un módulo de atención contextual para extraer características de la columna vertebral a través de un enfoque de autoatención. Luego proponemos una arquitectura de segmentación semántica profunda basada en VIT llamada MFT, que asocia características de campo receptivo multinivel y conserva la información de características capturada por cada nivel de características. Se muestra experimentalmente que nuestro método propuesto funciona mejor en conjuntos de datos de detección de vidrio existentes que varios métodos de detección de vidrio y objetos transparentes de última generación, lo que demuestra plenamente el mejor rendimiento de nuestro TGSNet.