CTDUNet: Una Red Dual en Forma de U Multimodal CNN-Transformer con Atención en el Espacio de Coordenadas para la Segmentación de Plagas y Enfermedades en Entornos Complejos
Autores: Guo, Ruitian; Zhang, Ruopeng; Zhou, Hao; Xie, Tunjun; Peng, Yuting; Chen, Xili; Yu, Guo; Wan, Fangying; Li, Lin; Zhang, Yongzhong; Liu, Ruifeng
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
CTDUNet: Una Red Dual en Forma de U Multimodal CNN-Transformer con Atención en el Espacio de Coordenadas para la Segmentación de Plagas y Enfermedades en Entornos Complejos
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Cultivos
Enfermedades
Plagas
Segmentación
Modelo multimodal
CNN-Transformer.
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 8
Citaciones: Sin citaciones
es un cultivo de alto valor económico, sin embargo, es particularmente susceptible a diversas enfermedades y plagas que reducen significativamente su rendimiento y calidad. En consecuencia, la segmentación y clasificación precisa de las hojas enfermas de Camellia son vitales para gestionar plagas y enfermedades de manera efectiva. El aprendizaje profundo exhibe ventajas significativas en la segmentación de enfermedades y plagas de plantas, particularmente en el procesamiento de imágenes complejas y la extracción automatizada de características. Sin embargo, al emplear modelos unimodales para segmentar enfermedades, surgen tres desafíos críticos: (A) las lesiones pueden parecerse mucho a los colores del fondo complejo; (B) pequeñas secciones de hojas enfermas se superponen; (C) la presencia de múltiples enfermedades en una sola hoja. Estos factores obstaculizan considerablemente la precisión de la segmentación. Se ha propuesto un nuevo modelo multimodal, la Red U en forma de doble CNN-Transformer (CTDUNet), basado en una arquitectura CNN-Transformer, para integrar información de imagen y texto. Este modelo primero utiliza datos textuales para abordar las deficiencias de las características de imagen unimodal, mejorando su capacidad para distinguir lesiones de características ambientales, incluso en condiciones donde se parecen mucho entre sí. Además, introducimos la Atención en el Espacio de Coordenadas (CSA), que se centra en las relaciones posicionales entre los objetivos, mejorando así la segmentación de los bordes superpuestos de las hojas. Además, se emplea la atención cruzada (CA) para alinear efectivamente las características de imagen y texto, preservando la información local y mejorando la percepción y diferenciación de diversas enfermedades. El modelo CTDUNet fue evaluado en un conjunto de datos multimodal creado por nosotros en comparación con varios modelos, incluyendo DeeplabV3+, UNet, PSPNet, Segformer, HrNet y Language meets Vision Transformer (LViT). Los resultados experimentales demuestran que CTDUNet logró un índice medio de intersección sobre la unión (mIoU) del 86.14%, superando tanto a los modelos multimodales como al mejor modelo unimodal en un 3.91% y un 5.84%, respectivamente. Además, CTDUNet exhibe un alto equilibrio en la segmentación multiclase de enfermedades y plagas. Estos resultados indican la exitosa aplicación de información multimodal fusionada de imagen y texto en la segmentación de enfermedades de Camellia, logrando un rendimiento excepcional.
Descripción
es un cultivo de alto valor económico, sin embargo, es particularmente susceptible a diversas enfermedades y plagas que reducen significativamente su rendimiento y calidad. En consecuencia, la segmentación y clasificación precisa de las hojas enfermas de Camellia son vitales para gestionar plagas y enfermedades de manera efectiva. El aprendizaje profundo exhibe ventajas significativas en la segmentación de enfermedades y plagas de plantas, particularmente en el procesamiento de imágenes complejas y la extracción automatizada de características. Sin embargo, al emplear modelos unimodales para segmentar enfermedades, surgen tres desafíos críticos: (A) las lesiones pueden parecerse mucho a los colores del fondo complejo; (B) pequeñas secciones de hojas enfermas se superponen; (C) la presencia de múltiples enfermedades en una sola hoja. Estos factores obstaculizan considerablemente la precisión de la segmentación. Se ha propuesto un nuevo modelo multimodal, la Red U en forma de doble CNN-Transformer (CTDUNet), basado en una arquitectura CNN-Transformer, para integrar información de imagen y texto. Este modelo primero utiliza datos textuales para abordar las deficiencias de las características de imagen unimodal, mejorando su capacidad para distinguir lesiones de características ambientales, incluso en condiciones donde se parecen mucho entre sí. Además, introducimos la Atención en el Espacio de Coordenadas (CSA), que se centra en las relaciones posicionales entre los objetivos, mejorando así la segmentación de los bordes superpuestos de las hojas. Además, se emplea la atención cruzada (CA) para alinear efectivamente las características de imagen y texto, preservando la información local y mejorando la percepción y diferenciación de diversas enfermedades. El modelo CTDUNet fue evaluado en un conjunto de datos multimodal creado por nosotros en comparación con varios modelos, incluyendo DeeplabV3+, UNet, PSPNet, Segformer, HrNet y Language meets Vision Transformer (LViT). Los resultados experimentales demuestran que CTDUNet logró un índice medio de intersección sobre la unión (mIoU) del 86.14%, superando tanto a los modelos multimodales como al mejor modelo unimodal en un 3.91% y un 5.84%, respectivamente. Además, CTDUNet exhibe un alto equilibrio en la segmentación multiclase de enfermedades y plagas. Estos resultados indican la exitosa aplicación de información multimodal fusionada de imagen y texto en la segmentación de enfermedades de Camellia, logrando un rendimiento excepcional.