MFSNet: mejorando la segmentación semántica de escenas urbanas con una red de mezcla de características a múltiples escalas
Autores: Qian, Xiaohong; Shu, Chente; Jin, Wuyin; Yu, Yunxiang; Yang, Shengying
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
MFSNet: mejorando la segmentación semántica de escenas urbanas con una red de mezcla de características a múltiples escalas
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Escenas urbanas
Modelos de segmentación semántica
Red de Barajado de Características Multiescala
Módulo de Barajado Piramidal
Módulo eficiente de agregación de características
Delimitación de fronteras de segmentación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 58
Citaciones: Sin citaciones
La complejidad de las escenas urbanas presenta un desafío para los modelos de segmentación semántica. Los modelos existentes están limitados por factores como la escala, el color y la forma de los objetos urbanos, lo que limita su capacidad para lograr resultados de segmentación más precisos. Para abordar estas limitaciones, este artículo propone una nueva Red de Barajado de Características Multi-Escala (MFSNet), que es una mejora del modelo existente Deeplabv3+. Específicamente, MFSNet integra un novedoso Módulo de Barajado Piramidal (PSM) para extraer características discriminativas y correlaciones de características, con el objetivo de mejorar la precisión de clasificación de objetos insignificantes. Además, proponemos un módulo eficiente de agregación de características (EFAM) para expandir eficazmente el campo receptivo y agregar información contextual, que se integra como una rama dentro de la arquitectura de la red para mitigar la pérdida de información resultante de las operaciones de muestreo. Además, con el fin de aumentar la precisión de la delimitación de los límites de segmentación y la localización de objetos, empleamos una estrategia progresiva de aumento de muestreo para restituir la información espacial en los mapas de características. Los resultados experimentales muestran que el modelo propuesto logra un rendimiento competitivo, alcanzando un MIoU del 80.4% en el conjunto de datos Pascal VOC 2012, un MIoU del 79.4% en el conjunto de datos Cityscapes y un MIoU del 40.1% en el conjunto de datos Coco-Stuff.
Descripción
La complejidad de las escenas urbanas presenta un desafío para los modelos de segmentación semántica. Los modelos existentes están limitados por factores como la escala, el color y la forma de los objetos urbanos, lo que limita su capacidad para lograr resultados de segmentación más precisos. Para abordar estas limitaciones, este artículo propone una nueva Red de Barajado de Características Multi-Escala (MFSNet), que es una mejora del modelo existente Deeplabv3+. Específicamente, MFSNet integra un novedoso Módulo de Barajado Piramidal (PSM) para extraer características discriminativas y correlaciones de características, con el objetivo de mejorar la precisión de clasificación de objetos insignificantes. Además, proponemos un módulo eficiente de agregación de características (EFAM) para expandir eficazmente el campo receptivo y agregar información contextual, que se integra como una rama dentro de la arquitectura de la red para mitigar la pérdida de información resultante de las operaciones de muestreo. Además, con el fin de aumentar la precisión de la delimitación de los límites de segmentación y la localización de objetos, empleamos una estrategia progresiva de aumento de muestreo para restituir la información espacial en los mapas de características. Los resultados experimentales muestran que el modelo propuesto logra un rendimiento competitivo, alcanzando un MIoU del 80.4% en el conjunto de datos Pascal VOC 2012, un MIoU del 79.4% en el conjunto de datos Cityscapes y un MIoU del 40.1% en el conjunto de datos Coco-Stuff.