Yolov8n-DDA-SAM: estimación precisa del punto de corte para la cosecha robótica de tomates cherry
Autores: Zhang, Gengming; Cao, Hao; Jin, Yangwen; Zhong, Yi; Zhao, Anbang; Zou, Xiangjun; Wang, Hongjun
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Yolov8n-DDA-SAM: estimación precisa del punto de corte para la cosecha robótica de tomates cherry
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Tomate cherry
Puntos de recolección
Modelo YOLOv8n-DDA-SAM
Segmentación semántica
Detección de objetos
Características del tallo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 34
Citaciones: Sin citaciones
Identificar con precisión los puntos de recolección de tomates cherry y obtener sus ubicaciones coordenadas es crucial para el éxito de los robots recolectores de tomates cherry. Sin embargo, los métodos anteriores para la segmentación semántica sola o combinando la detección de objetos con el procesamiento de imágenes tradicional han tenido dificultades para determinar con precisión el punto de recolección de tomates cherry debido a desafíos como hojas, así como objetivos que son demasiado pequeños. En este estudio, proponemos un modelo YOLOv8n-DDA-SAM que agrega una rama de segmentación semántica a la detección de objetivos para lograr la detección deseada y calcular el punto de recolección. Específicamente, se utiliza YOLOv8n como modelo inicial, y se utiliza una capa de convolución de serpiente dinámica (DySnakeConv) más adecuada para la detección de los tallos de tomate cherry en el cuello del modelo. Además, el mecanismo de atención de núcleo convolucional grande dinámico adoptado en el espinazo y el uso de la convolución ADown resultaron en una mejor fusión de las características del tallo con las características del cuello y una cierta disminución en el número de parámetros del modelo sin pérdida de precisión. Combinado con la rama semántica SAM, se obtiene efectivamente la máscara de los puntos de recolección y luego se obtiene el punto de recolección preciso mediante un cálculo simple de centrado de forma. Según los resultados experimentales, el modelo propuesto YOLOv8n-DDA-SAM ha mejorado significativamente respecto a modelos anteriores no solo en la detección de tallos, sino también en la obtención de máscaras de tallos. En el mAP@0.5 y el puntaje F1, el YOLOv8n-DDA-SAM logró 85.90% y 86.13% respectivamente. En comparación con el YOLOv8n original, YOLOv7, RT-DETR-l y YOLOv9c, el mAP@0.5 ha mejorado en un 24.7%, 21.85%, 19.76%, 15.99% respectivamente. El puntaje F1 ha aumentado en un 16.34%, 12.11%, 10.09%, 8.07% respectivamente, y el número de parámetros es solo 6.37M. En la rama de segmentación semántica, no solo no necesita producir conjuntos de datos relevantes, sino que también mejoró su mIOU en un 11.43%, 6.94%, 5.53%, 4.22% y mAP@0.5 en un 12.33%, 7.49%, 6.4%, 5.99% en comparación con Deeplabv3+, Mask2former, DDRNet y SAN respectivamente. En resumen, el modelo puede satisfacer bien los requisitos de detección de alta precisión y proporciona una estrategia para el sistema de detección de los tomates cherry.
Descripción
Identificar con precisión los puntos de recolección de tomates cherry y obtener sus ubicaciones coordenadas es crucial para el éxito de los robots recolectores de tomates cherry. Sin embargo, los métodos anteriores para la segmentación semántica sola o combinando la detección de objetos con el procesamiento de imágenes tradicional han tenido dificultades para determinar con precisión el punto de recolección de tomates cherry debido a desafíos como hojas, así como objetivos que son demasiado pequeños. En este estudio, proponemos un modelo YOLOv8n-DDA-SAM que agrega una rama de segmentación semántica a la detección de objetivos para lograr la detección deseada y calcular el punto de recolección. Específicamente, se utiliza YOLOv8n como modelo inicial, y se utiliza una capa de convolución de serpiente dinámica (DySnakeConv) más adecuada para la detección de los tallos de tomate cherry en el cuello del modelo. Además, el mecanismo de atención de núcleo convolucional grande dinámico adoptado en el espinazo y el uso de la convolución ADown resultaron en una mejor fusión de las características del tallo con las características del cuello y una cierta disminución en el número de parámetros del modelo sin pérdida de precisión. Combinado con la rama semántica SAM, se obtiene efectivamente la máscara de los puntos de recolección y luego se obtiene el punto de recolección preciso mediante un cálculo simple de centrado de forma. Según los resultados experimentales, el modelo propuesto YOLOv8n-DDA-SAM ha mejorado significativamente respecto a modelos anteriores no solo en la detección de tallos, sino también en la obtención de máscaras de tallos. En el mAP@0.5 y el puntaje F1, el YOLOv8n-DDA-SAM logró 85.90% y 86.13% respectivamente. En comparación con el YOLOv8n original, YOLOv7, RT-DETR-l y YOLOv9c, el mAP@0.5 ha mejorado en un 24.7%, 21.85%, 19.76%, 15.99% respectivamente. El puntaje F1 ha aumentado en un 16.34%, 12.11%, 10.09%, 8.07% respectivamente, y el número de parámetros es solo 6.37M. En la rama de segmentación semántica, no solo no necesita producir conjuntos de datos relevantes, sino que también mejoró su mIOU en un 11.43%, 6.94%, 5.53%, 4.22% y mAP@0.5 en un 12.33%, 7.49%, 6.4%, 5.99% en comparación con Deeplabv3+, Mask2former, DDRNet y SAN respectivamente. En resumen, el modelo puede satisfacer bien los requisitos de detección de alta precisión y proporciona una estrategia para el sistema de detección de los tomates cherry.