DpNet: red dual pirámide red de segmentación semántica basada en Deeplabv3 Plus mejorado
Autores: Wang, Jun; Zhang, Xiaolin; Yan, Tianhong; Tan, Aihong
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
DpNet: red dual pirámide red de segmentación semántica basada en Deeplabv3 Plus mejorado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Segmentación semántica
Visión por computadora
DPNet
Método de segmentación de imágenes
Arquitectura Deeplabv3 plus
ResNet-50
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 62
Citaciones: Sin citaciones
La segmentación semántica encuentra aplicaciones de gran alcance y se presenta como una tarea crucial en el ámbito de la visión por computadora. Tiene implicaciones significativas para la comprensión de escenas y la toma de decisiones en sistemas no tripulados, incluidos dominios como la conducción autónoma, vehículos aéreos no tripulados, robótica y atención médica. Como resultado, hay una creciente demanda de alta precisión en la segmentación semántica, especialmente para estos contenidos. Este documento presenta DPNet, un nuevo método de segmentación semántica de imágenes basado en la arquitectura Deeplabv3 plus. DPNet utiliza ResNet-50 como red principal para extraer mapas de características a varias escalas. Nuestro método propuesto emplea la estructura BiFPN (Red de Pirámide de Características Bidireccional) para fusionar información a múltiples escalas, junto con el módulo ASPP (Atrous Spatial Pyramid Pooling) para manejar información en diferentes escalas, formando una estructura de doble pirámide que aprovecha completamente las características efectivas obtenidas de la red principal. El módulo de Atención Shuffle se emplea en nuestro enfoque para suprimir la propagación de información irrelevante y mejorar la representación de características relevantes. Las evaluaciones experimentales en el conjunto de datos de Cityscapes y en el conjunto de datos de PASCAL VOC 2012 demuestran que nuestro método supera a los enfoques actuales, mostrando una precisión superior en la segmentación semántica.
Descripción
La segmentación semántica encuentra aplicaciones de gran alcance y se presenta como una tarea crucial en el ámbito de la visión por computadora. Tiene implicaciones significativas para la comprensión de escenas y la toma de decisiones en sistemas no tripulados, incluidos dominios como la conducción autónoma, vehículos aéreos no tripulados, robótica y atención médica. Como resultado, hay una creciente demanda de alta precisión en la segmentación semántica, especialmente para estos contenidos. Este documento presenta DPNet, un nuevo método de segmentación semántica de imágenes basado en la arquitectura Deeplabv3 plus. DPNet utiliza ResNet-50 como red principal para extraer mapas de características a varias escalas. Nuestro método propuesto emplea la estructura BiFPN (Red de Pirámide de Características Bidireccional) para fusionar información a múltiples escalas, junto con el módulo ASPP (Atrous Spatial Pyramid Pooling) para manejar información en diferentes escalas, formando una estructura de doble pirámide que aprovecha completamente las características efectivas obtenidas de la red principal. El módulo de Atención Shuffle se emplea en nuestro enfoque para suprimir la propagación de información irrelevante y mejorar la representación de características relevantes. Las evaluaciones experimentales en el conjunto de datos de Cityscapes y en el conjunto de datos de PASCAL VOC 2012 demuestran que nuestro método supera a los enfoques actuales, mostrando una precisión superior en la segmentación semántica.