Investigación sobre el reconocimiento de la etapa de plántulas de soja basado en Swin Transformer
Autores: Ma, Kai; Qiu, Jinkai; Kang, Ye; Qi, Liqiang; Zhang, Wei; Wang, Song; Xu, Xiuying
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Investigación sobre el reconocimiento de la etapa de plántulas de soja basado en Swin Transformer
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Agronomía y Ciencia de los Cultivos
Palabras clave
Identificación
Plántula de soja
Modelo Swin-T
Optimizado
Prueba de degradación
Etapas de hojas compuestas
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 25
Citaciones: Sin citaciones
La identificación precisa de los períodos de la segunda y tercera hoja compuesta de las plántulas de soja es un requisito previo para garantizar que las sojas sean desmalezadas químicamente después de la siembra en el período de aplicación óptimo. La identificación precisa del período de plántula de soja es susceptible a la luz natural y a factores de fondo de campo complejos. Se propone una red Swin-T (Swin Transformer) basada en aprendizaje por transferencia para reconocer diferentes etapas de la etapa de plántula de soja. Se utilizó un dron para recolectar imágenes de sojas en la etapa de hoja verdadera, la primera etapa de hoja compuesta, la segunda etapa de hoja compuesta y la tercera etapa de hoja compuesta, y se utilizaron métodos de mejora de datos como rotación de imágenes y mejora de brillo para expandir el conjunto de datos, simular la recolección de imágenes del dron en diferentes ángulos de disparo y condiciones climáticas, y mejorar la adaptabilidad del modelo. El entorno de campo y el equipo de filmación afectan directamente la calidad de las imágenes capturadas, y para probar la capacidad anti-interferencias de diferentes modelos, se utilizó el método de desenfoque gaussiano para desenfocar las imágenes del conjunto de prueba a diferentes grados. El modelo Swin-T fue optimizado mediante la introducción de aprendizaje por transferencia y la combinación de experimentos de combinación de hiperparámetros y experimentos de selección de optimizadores. El rendimiento del modelo Swin-T optimizado se comparó con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net. Los resultados muestran que el modelo Swin-T optimizado tiene una precisión promedio del 98.38% en el conjunto de prueba, lo que representa una mejora del 11.25%, 12.62%, 10.75%, 1.00% y 0.63% en comparación con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, respectivamente. El modelo Swin-T optimizado es el mejor en términos de recordatorio y puntuación F1. En la prueba de degradación de rendimiento del modelo de nivel de desenfoque de movimiento, la precisión máxima de degradación, el índice de degradación general y el índice de degradación promedio del modelo Swin-T optimizado fueron del 87.77%, 6.54% y 2.18%, respectivamente. La precisión máxima de degradación fue 7.02%, 7.48%, 10.15%, 3.56% y 2.5% más alta que los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, respectivamente. En la prueba de degradación de rendimiento de los modelos de nivel de desenfoque gaussiano, la precisión máxima de degradación, el índice de degradación general y el índice de degradación promedio del modelo Swin-T optimizado fueron del 94.3%, 3.85% y 1.285%, respectivamente. En comparación con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, la precisión máxima de degradación fue 12.13%, 15.98%, 16.7%, 2.2% y 1.5% más alta, respectivamente. Teniendo en cuenta varios indicadores de degradación, el modelo Swin-T aún puede mantener una alta precisión de reconocimiento y demostrar una buena capacidad anti-interferencias incluso al ingresar imágenes borrosas causadas por interferencias en la filmación. Puede cumplir con el reconocimiento de diferentes etapas de crecimiento de las plántulas de soja en entornos complejos, proporcionando una base para el control químico de malezas después de la siembra durante las etapas de la segunda y tercera hoja compuesta de las sojas.
Descripción
La identificación precisa de los períodos de la segunda y tercera hoja compuesta de las plántulas de soja es un requisito previo para garantizar que las sojas sean desmalezadas químicamente después de la siembra en el período de aplicación óptimo. La identificación precisa del período de plántula de soja es susceptible a la luz natural y a factores de fondo de campo complejos. Se propone una red Swin-T (Swin Transformer) basada en aprendizaje por transferencia para reconocer diferentes etapas de la etapa de plántula de soja. Se utilizó un dron para recolectar imágenes de sojas en la etapa de hoja verdadera, la primera etapa de hoja compuesta, la segunda etapa de hoja compuesta y la tercera etapa de hoja compuesta, y se utilizaron métodos de mejora de datos como rotación de imágenes y mejora de brillo para expandir el conjunto de datos, simular la recolección de imágenes del dron en diferentes ángulos de disparo y condiciones climáticas, y mejorar la adaptabilidad del modelo. El entorno de campo y el equipo de filmación afectan directamente la calidad de las imágenes capturadas, y para probar la capacidad anti-interferencias de diferentes modelos, se utilizó el método de desenfoque gaussiano para desenfocar las imágenes del conjunto de prueba a diferentes grados. El modelo Swin-T fue optimizado mediante la introducción de aprendizaje por transferencia y la combinación de experimentos de combinación de hiperparámetros y experimentos de selección de optimizadores. El rendimiento del modelo Swin-T optimizado se comparó con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net. Los resultados muestran que el modelo Swin-T optimizado tiene una precisión promedio del 98.38% en el conjunto de prueba, lo que representa una mejora del 11.25%, 12.62%, 10.75%, 1.00% y 0.63% en comparación con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, respectivamente. El modelo Swin-T optimizado es el mejor en términos de recordatorio y puntuación F1. En la prueba de degradación de rendimiento del modelo de nivel de desenfoque de movimiento, la precisión máxima de degradación, el índice de degradación general y el índice de degradación promedio del modelo Swin-T optimizado fueron del 87.77%, 6.54% y 2.18%, respectivamente. La precisión máxima de degradación fue 7.02%, 7.48%, 10.15%, 3.56% y 2.5% más alta que los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, respectivamente. En la prueba de degradación de rendimiento de los modelos de nivel de desenfoque gaussiano, la precisión máxima de degradación, el índice de degradación general y el índice de degradación promedio del modelo Swin-T optimizado fueron del 94.3%, 3.85% y 1.285%, respectivamente. En comparación con los modelos MobileNetV2, ResNet50, AlexNet, GoogleNet y VGG16Net, la precisión máxima de degradación fue 12.13%, 15.98%, 16.7%, 2.2% y 1.5% más alta, respectivamente. Teniendo en cuenta varios indicadores de degradación, el modelo Swin-T aún puede mantener una alta precisión de reconocimiento y demostrar una buena capacidad anti-interferencias incluso al ingresar imágenes borrosas causadas por interferencias en la filmación. Puede cumplir con el reconocimiento de diferentes etapas de crecimiento de las plántulas de soja en entornos complejos, proporcionando una base para el control químico de malezas después de la siembra durante las etapas de la segunda y tercera hoja compuesta de las sojas.