Método de Recuperación de Imágenes y Texto de Enfermedades de Hojas de Tomate de Alta Precisión Utilizando LAFANet
Autores: Xu, Jiaxin; Zhou, Hongliang; Hu, Yufan; Xue, Yongfei; Zhou, Guoxiong; Li, Liujun; Dai, Weisi; Li, Jinyang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Método de Recuperación de Imágenes y Texto de Enfermedades de Hojas de Tomate de Alta Precisión Utilizando LAFANet
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Enfermedad de las hojas de tomate
Recuperación de texto e imagen
LAFANet
Análisis de datos multimodales
ViT
BERT
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 11
Citaciones: Sin citaciones
El control de enfermedades de las hojas de tomate en el campo de la agricultura inteligente requiere urgentemente atención y refuerzo. Este documento propone un método llamado LAFANet para la recuperación de imágenes y texto, que integra información de imágenes y texto para un análisis conjunto de datos multimodales, ayudando a los profesionales agrícolas a proporcionar evidencia diagnóstica más completa y profunda para garantizar la calidad y el rendimiento de los tomates. Primero, nos enfocamos en seis imágenes comunes de enfermedades de las hojas de tomate y descripciones textuales, creando un Conjunto de Datos de Recuperación de Imágenes y Texto de Enfermedades de Hojas de Tomate (TLDITRD), introduciendo la recuperación de imágenes y texto en el campo de la recuperación de enfermedades de las hojas de tomate. Luego, utilizando modelos ViT y BERT, extraemos características detalladas de imágenes y secuencias de características textuales, incorporando información contextual de pares de imágenes y texto. Para abordar los errores en la recuperación de imágenes y texto causados por fondos complejos, proponemos la Atención de Fusión Aprendible (LFA) para amplificar la fusión de características textuales y de imagen, extrayendo así conocimientos semánticos sustanciales de ambas modalidades. Para profundizar en las conexiones semánticas a través de varias modalidades, proponemos un enfoque de Eliminación de Falsos Negativos - Selección Negativa Adversarial (FNE-ANS). Este método tiene como objetivo identificar instancias negativas adversariales que apuntan específicamente a falsos negativos dentro de la función de tripleta, imponiendo así restricciones al modelo. Para fortalecer la capacidad del modelo para la generalización y precisión, proponemos la Regularización Adversarial (AR). Este enfoque implica incorporar perturbaciones adversariales durante el entrenamiento del modelo, fortaleciendo así su resistencia y adaptabilidad a ligeras variaciones en los datos de entrada. Los resultados experimentales muestran que, en comparación con los modelos ultramodernos existentes, LAFANet superó a los modelos existentes en el conjunto de datos TLDITRD, alcanzando top1, top5 y top10 de 83.3% y 90.0%, y top1, top5 y top10 de 80.3%, 93.7% y 96.3%. LAFANet ofrece un nuevo respaldo técnico y perspectivas algorítmicas para la recuperación de enfermedades de las hojas de tomate a través de la correlación imagen-texto.
Descripción
El control de enfermedades de las hojas de tomate en el campo de la agricultura inteligente requiere urgentemente atención y refuerzo. Este documento propone un método llamado LAFANet para la recuperación de imágenes y texto, que integra información de imágenes y texto para un análisis conjunto de datos multimodales, ayudando a los profesionales agrícolas a proporcionar evidencia diagnóstica más completa y profunda para garantizar la calidad y el rendimiento de los tomates. Primero, nos enfocamos en seis imágenes comunes de enfermedades de las hojas de tomate y descripciones textuales, creando un Conjunto de Datos de Recuperación de Imágenes y Texto de Enfermedades de Hojas de Tomate (TLDITRD), introduciendo la recuperación de imágenes y texto en el campo de la recuperación de enfermedades de las hojas de tomate. Luego, utilizando modelos ViT y BERT, extraemos características detalladas de imágenes y secuencias de características textuales, incorporando información contextual de pares de imágenes y texto. Para abordar los errores en la recuperación de imágenes y texto causados por fondos complejos, proponemos la Atención de Fusión Aprendible (LFA) para amplificar la fusión de características textuales y de imagen, extrayendo así conocimientos semánticos sustanciales de ambas modalidades. Para profundizar en las conexiones semánticas a través de varias modalidades, proponemos un enfoque de Eliminación de Falsos Negativos - Selección Negativa Adversarial (FNE-ANS). Este método tiene como objetivo identificar instancias negativas adversariales que apuntan específicamente a falsos negativos dentro de la función de tripleta, imponiendo así restricciones al modelo. Para fortalecer la capacidad del modelo para la generalización y precisión, proponemos la Regularización Adversarial (AR). Este enfoque implica incorporar perturbaciones adversariales durante el entrenamiento del modelo, fortaleciendo así su resistencia y adaptabilidad a ligeras variaciones en los datos de entrada. Los resultados experimentales muestran que, en comparación con los modelos ultramodernos existentes, LAFANet superó a los modelos existentes en el conjunto de datos TLDITRD, alcanzando top1, top5 y top10 de 83.3% y 90.0%, y top1, top5 y top10 de 80.3%, 93.7% y 96.3%. LAFANet ofrece un nuevo respaldo técnico y perspectivas algorítmicas para la recuperación de enfermedades de las hojas de tomate a través de la correlación imagen-texto.