VM-YOLO: YOLO con VMamba para la detección de flores de fresa
Autores: Wang, Yujin; Lin, Xueying; Xiang, Zhaowei; Su, Wen-Hao
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
VM-YOLO: YOLO con VMamba para la detección de flores de fresa
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Visión por computadora
Agricultura
Algoritmos
Optimización
Detección de objetos
Rendimiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
La tecnología de visión por computadora se utiliza ampliamente en la agricultura inteligente, principalmente debido a su naturaleza no invasiva, que evita causar daños a cultivos delicados. Sin embargo, el despliegue de algoritmos de visión por computadora en maquinaria agrícola con recursos computacionales limitados representa un desafío significativo. La optimización de algoritmos con el objetivo de lograr un equilibrio entre precisión y potencia computacional representa un tema de investigación fundamental y es el enfoque central de nuestro trabajo. En este artículo, proponemos una red híbrida ligera, llamada VM-YOLO, con el propósito de detectar flores de fresa. En primer lugar, se propone un módulo de muestreo convolucional rápido basado en una arquitectura de múltiples ramas, denominado Light C2f, para reemplazar el módulo C2f en la columna vertebral de YOLOv8, con el fin de mejorar la capacidad de la red para percibir características de múltiples escalas. En segundo lugar, se propone un cuello ligero basado en un modelo de espacio de estados con un campo de sensibilidad global, denominado VMambaNeck, para reemplazar el cuello original de YOLOv8. Después del entrenamiento y la prueba del algoritmo mejorado en un conjunto de datos de flores de fresa autoconstruido, se lleva a cabo una serie de experimentos para evaluar el rendimiento del modelo, incluidos experimentos de ablación, experimentos comparativos de múltiples conjuntos de datos y experimentos comparativos contra algoritmos de última generación. Los resultados muestran que la red VM-YOLO exhibe un rendimiento superior en tareas de detección de objetos en diversos conjuntos de datos en comparación con la línea base. Además, los resultados también demuestran que VM-YOLO tiene un mejor rendimiento en el mAP, la velocidad de inferencia y el número de parámetros en comparación con YOLOv6, Faster R-CNN, FCOS y RetinaNet.
Descripción
La tecnología de visión por computadora se utiliza ampliamente en la agricultura inteligente, principalmente debido a su naturaleza no invasiva, que evita causar daños a cultivos delicados. Sin embargo, el despliegue de algoritmos de visión por computadora en maquinaria agrícola con recursos computacionales limitados representa un desafío significativo. La optimización de algoritmos con el objetivo de lograr un equilibrio entre precisión y potencia computacional representa un tema de investigación fundamental y es el enfoque central de nuestro trabajo. En este artículo, proponemos una red híbrida ligera, llamada VM-YOLO, con el propósito de detectar flores de fresa. En primer lugar, se propone un módulo de muestreo convolucional rápido basado en una arquitectura de múltiples ramas, denominado Light C2f, para reemplazar el módulo C2f en la columna vertebral de YOLOv8, con el fin de mejorar la capacidad de la red para percibir características de múltiples escalas. En segundo lugar, se propone un cuello ligero basado en un modelo de espacio de estados con un campo de sensibilidad global, denominado VMambaNeck, para reemplazar el cuello original de YOLOv8. Después del entrenamiento y la prueba del algoritmo mejorado en un conjunto de datos de flores de fresa autoconstruido, se lleva a cabo una serie de experimentos para evaluar el rendimiento del modelo, incluidos experimentos de ablación, experimentos comparativos de múltiples conjuntos de datos y experimentos comparativos contra algoritmos de última generación. Los resultados muestran que la red VM-YOLO exhibe un rendimiento superior en tareas de detección de objetos en diversos conjuntos de datos en comparación con la línea base. Además, los resultados también demuestran que VM-YOLO tiene un mejor rendimiento en el mAP, la velocidad de inferencia y el número de parámetros en comparación con YOLOv6, Faster R-CNN, FCOS y RetinaNet.