Un modelo de fusión de características intermodales basado en ConvNeXt para la segmentación semántica RGB-D

Contáctanos

Temas

Artículos

XBooks

Revistas

Laboratorios

Showroom

Infografías

Recorridos

Videos

Perfiles

Actualidad

Un modelo de fusión de características intermodales basado en ConvNeXt para la segmentación semántica RGB-D

Autores: Tang, Xiaojiang; Li, Baoxia; Guo, Junwei; Chen, Wenzhuo; Zhang, Dan; Huang, Feng

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico

2023

Un modelo de fusión de características intermodales basado en ConvNeXt para la segmentación semántica RGB-D

Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Segmentación semántica

RGB

Profundidad

Fusión de características

ConvNeXt

MIoU

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 36

Citaciones: Sin citaciones

La segmentación semántica, como la clasificación a nivel de píxel con la división de una imagen en múltiples bloques basados en las similitudes y diferencias de las categorías (es decir, asignando a cada píxel en la imagen una etiqueta de clase), es una tarea importante en visión por computadora. La combinación de la información RGB y de profundidad puede mejorar el rendimiento de la segmentación semántica. Sin embargo, todavía existe un problema en la forma de integrar profundamente RGB y profundidad. En este artículo, proponemos un modelo de segmentación semántica RGB-D de fusión de características multimodales basado en ConvNeXt, que utiliza ConvNeXt como la red esquelética e incrusta un módulo de fusión de características multimodales (CMFFM). El CMFFM diseña la fusión de características a nivel de canal y a nivel espectral, lo que puede lograr la fusión de características profunda de RGB y profundidad. La fusión de características multimodales en múltiples etapas mejora el rendimiento del modelo. Se realizaron experimentos en el conjunto de datos público de SUN-RGBD, mostrando la mejor segmentación con nuestro modelo propuesto ConvNeXt-CMFFM con la puntuación mIoU más alta del 53.5% entre los nueve modelos comparativos. El rendimiento sobresaliente de ConvNeXt-CMFFM también se logra en nuestro conjunto de datos autoconstruido de RICE-RGBD con la puntuación mIoU más alta y precisión de píxeles entre los tres conjuntos de datos comparativos. El experimento de ablación en nuestro conjunto de datos de arroz muestra que en comparación con ConvNeXt (sin CMFFM), la puntuación mIoU de ConvNext-CMFFM aumenta del 71.5% al 74.8% y su precisión de píxeles aumenta del 86.2% al 88.3%, lo que indica la efectividad del módulo de fusión de características agregado en mejorar el rendimiento de la segmentación. Este estudio muestra la viabilidad de la aplicación práctica del modelo propuesto en agricultura.

Descripción

Otros recursos que podrían interesarte

Ver todas

Temas Virtualpro

Ver todas

Categoría

Subcategoría

Palabras clave

Licencia

Citación bibliográfica

Formato

¡Regístrate ahora y conoce todos los espacios virtuales disponibles para tu institución!

Otros recursos que podrían interesarte

Temas Virtualpro