logo móvil
Contáctanos

CTDUNet: Una Red Dual en Forma de U Multimodal CNN-Transformer con Atención en el Espacio de Coordenadas para la Segmentación de Plagas y Enfermedades en Entornos Complejos

Autores: Guo, Ruitian; Zhang, Ruopeng; Zhou, Hao; Xie, Tunjun; Peng, Yuting; Chen, Xili; Yu, Guo; Wan, Fangying; Li, Lin; Zhang, Yongzhong; Liu, Ruifeng

Idioma: Inglés

Editor: MDPI

Año: 2024

Descargar PDF

Acceso abierto

Artículo científico
2024

CTDUNet: Una Red Dual en Forma de U Multimodal CNN-Transformer con Atención en el Espacio de Coordenadas para la Segmentación de Plagas y Enfermedades en Entornos Complejos


Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Botánica

Palabras clave

Cultivos
Enfermedades
Plagas
Segmentación
Modelo multimodal
CNN-Transformer.

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 8

Citaciones: Sin citaciones


Descripción
es un cultivo de alto valor económico, sin embargo, es particularmente susceptible a diversas enfermedades y plagas que reducen significativamente su rendimiento y calidad. En consecuencia, la segmentación y clasificación precisa de las hojas enfermas de Camellia son vitales para gestionar plagas y enfermedades de manera efectiva. El aprendizaje profundo exhibe ventajas significativas en la segmentación de enfermedades y plagas de plantas, particularmente en el procesamiento de imágenes complejas y la extracción automatizada de características. Sin embargo, al emplear modelos unimodales para segmentar enfermedades, surgen tres desafíos críticos: (A) las lesiones pueden parecerse mucho a los colores del fondo complejo; (B) pequeñas secciones de hojas enfermas se superponen; (C) la presencia de múltiples enfermedades en una sola hoja. Estos factores obstaculizan considerablemente la precisión de la segmentación. Se ha propuesto un nuevo modelo multimodal, la Red U en forma de doble CNN-Transformer (CTDUNet), basado en una arquitectura CNN-Transformer, para integrar información de imagen y texto. Este modelo primero utiliza datos textuales para abordar las deficiencias de las características de imagen unimodal, mejorando su capacidad para distinguir lesiones de características ambientales, incluso en condiciones donde se parecen mucho entre sí. Además, introducimos la Atención en el Espacio de Coordenadas (CSA), que se centra en las relaciones posicionales entre los objetivos, mejorando así la segmentación de los bordes superpuestos de las hojas. Además, se emplea la atención cruzada (CA) para alinear efectivamente las características de imagen y texto, preservando la información local y mejorando la percepción y diferenciación de diversas enfermedades. El modelo CTDUNet fue evaluado en un conjunto de datos multimodal creado por nosotros en comparación con varios modelos, incluyendo DeeplabV3+, UNet, PSPNet, Segformer, HrNet y Language meets Vision Transformer (LViT). Los resultados experimentales demuestran que CTDUNet logró un índice medio de intersección sobre la unión (mIoU) del 86.14%, superando tanto a los modelos multimodales como al mejor modelo unimodal en un 3.91% y un 5.84%, respectivamente. Además, CTDUNet exhibe un alto equilibrio en la segmentación multiclase de enfermedades y plagas. Estos resultados indican la exitosa aplicación de información multimodal fusionada de imagen y texto en la segmentación de enfermedades de Camellia, logrando un rendimiento excepcional.

Otros recursos que podrían interesarte

Temas Virtualpro