Un modelo de fusión de características intermodales basado en ConvNeXt para la segmentación semántica RGB-D
Autores: Tang, Xiaojiang; Li, Baoxia; Guo, Junwei; Chen, Wenzhuo; Zhang, Dan; Huang, Feng
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un modelo de fusión de características intermodales basado en ConvNeXt para la segmentación semántica RGB-D
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Segmentación semántica
RGB
Profundidad
Fusión de características
ConvNeXt
MIoU
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 36
Citaciones: Sin citaciones
La segmentación semántica, como la clasificación a nivel de píxel con la división de una imagen en múltiples bloques basados en las similitudes y diferencias de las categorías (es decir, asignando a cada píxel en la imagen una etiqueta de clase), es una tarea importante en visión por computadora. La combinación de la información RGB y de profundidad puede mejorar el rendimiento de la segmentación semántica. Sin embargo, todavía existe un problema en la forma de integrar profundamente RGB y profundidad. En este artículo, proponemos un modelo de segmentación semántica RGB-D de fusión de características multimodales basado en ConvNeXt, que utiliza ConvNeXt como la red esquelética e incrusta un módulo de fusión de características multimodales (CMFFM). El CMFFM diseña la fusión de características a nivel de canal y a nivel espectral, lo que puede lograr la fusión de características profunda de RGB y profundidad. La fusión de características multimodales en múltiples etapas mejora el rendimiento del modelo. Se realizaron experimentos en el conjunto de datos público de SUN-RGBD, mostrando la mejor segmentación con nuestro modelo propuesto ConvNeXt-CMFFM con la puntuación mIoU más alta del 53.5% entre los nueve modelos comparativos. El rendimiento sobresaliente de ConvNeXt-CMFFM también se logra en nuestro conjunto de datos autoconstruido de RICE-RGBD con la puntuación mIoU más alta y precisión de píxeles entre los tres conjuntos de datos comparativos. El experimento de ablación en nuestro conjunto de datos de arroz muestra que en comparación con ConvNeXt (sin CMFFM), la puntuación mIoU de ConvNext-CMFFM aumenta del 71.5% al 74.8% y su precisión de píxeles aumenta del 86.2% al 88.3%, lo que indica la efectividad del módulo de fusión de características agregado en mejorar el rendimiento de la segmentación. Este estudio muestra la viabilidad de la aplicación práctica del modelo propuesto en agricultura.
Descripción
La segmentación semántica, como la clasificación a nivel de píxel con la división de una imagen en múltiples bloques basados en las similitudes y diferencias de las categorías (es decir, asignando a cada píxel en la imagen una etiqueta de clase), es una tarea importante en visión por computadora. La combinación de la información RGB y de profundidad puede mejorar el rendimiento de la segmentación semántica. Sin embargo, todavía existe un problema en la forma de integrar profundamente RGB y profundidad. En este artículo, proponemos un modelo de segmentación semántica RGB-D de fusión de características multimodales basado en ConvNeXt, que utiliza ConvNeXt como la red esquelética e incrusta un módulo de fusión de características multimodales (CMFFM). El CMFFM diseña la fusión de características a nivel de canal y a nivel espectral, lo que puede lograr la fusión de características profunda de RGB y profundidad. La fusión de características multimodales en múltiples etapas mejora el rendimiento del modelo. Se realizaron experimentos en el conjunto de datos público de SUN-RGBD, mostrando la mejor segmentación con nuestro modelo propuesto ConvNeXt-CMFFM con la puntuación mIoU más alta del 53.5% entre los nueve modelos comparativos. El rendimiento sobresaliente de ConvNeXt-CMFFM también se logra en nuestro conjunto de datos autoconstruido de RICE-RGBD con la puntuación mIoU más alta y precisión de píxeles entre los tres conjuntos de datos comparativos. El experimento de ablación en nuestro conjunto de datos de arroz muestra que en comparación con ConvNeXt (sin CMFFM), la puntuación mIoU de ConvNext-CMFFM aumenta del 71.5% al 74.8% y su precisión de píxeles aumenta del 86.2% al 88.3%, lo que indica la efectividad del módulo de fusión de características agregado en mejorar el rendimiento de la segmentación. Este estudio muestra la viabilidad de la aplicación práctica del modelo propuesto en agricultura.