Sistema automatizado de reconocimiento de manzanas utilizando redes de segmentación semántica con operadores de grupo y mezcla
Autores: Zulkifley, Mohd Asyraf; Moubark, Asraf Mohamed; Saputro, Adhi Harmoko; Abdani, Siti Raihanah
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Sistema automatizado de reconocimiento de manzanas utilizando redes de segmentación semántica con operadores de grupo y mezcla
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Manzanas
Cosecha
Automatización
Localización
Red de segmentación
Arquitectura profunda
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 21
Citaciones: Sin citaciones
Las manzanas son una de las frutas más consumidas y requieren procedimientos de cosecha eficientes para mantenerse en estados óptimos durante un período más largo, especialmente durante el transporte. Por lo tanto, la automatización ha sido adoptada por muchos operadores de huertos para ayudar en el proceso de cosecha, que incluye la localización de manzanas en los árboles. El sensor de facto que se utiliza actualmente para esta tarea es la cámara estándar, que puede capturar información de amplio campo de visión de varios árboles de manzanas desde una distancia razonable. Por lo tanto, este documento tiene como objetivo producir la máscara de salida de las ubicaciones de las manzanas en el árbol automáticamente mediante el uso de una red de segmentación semántica profunda. La red debe ser lo suficientemente robusta como para superar todos los desafíos de sombra, iluminación circundante, variaciones de tamaño y oclusión para producir una localización precisa píxel a píxel de las manzanas. Una arquitectura profunda de alta resolución está incrustada con un diseño optimizado de operadores de grupo y shuffle (GSO) para producir la mejor red de segmentación de manzanas. GSO permite que la red reduzca la dependencia en unos pocos conjuntos de filtros convolucionales dominantes al obligar a cada grupo más pequeño a contribuir de manera efectiva a la tarea de extraer características óptimas de las manzanas. Los resultados experimentales muestran que la red propuesta, GSHR-Net, con dos conjuntos de convolución de grupo aplicados a todas las capas, produjo la mejor intersección media sobre unión de 0.8045. El rendimiento se ha comparado con otras 11 redes de segmentación semántica profundas de última generación. Para trabajos futuros, el rendimiento de la red puede aumentarse integrando datos sintéticos aumentados para optimizar aún más la fase de entrenamiento. Además, los mecanismos de atención basados en la atención espacial y de canal también pueden ser explorados al enfatizar algunas ubicaciones estratégicas de las manzanas, lo que hace que el reconocimiento sea más preciso.
Descripción
Las manzanas son una de las frutas más consumidas y requieren procedimientos de cosecha eficientes para mantenerse en estados óptimos durante un período más largo, especialmente durante el transporte. Por lo tanto, la automatización ha sido adoptada por muchos operadores de huertos para ayudar en el proceso de cosecha, que incluye la localización de manzanas en los árboles. El sensor de facto que se utiliza actualmente para esta tarea es la cámara estándar, que puede capturar información de amplio campo de visión de varios árboles de manzanas desde una distancia razonable. Por lo tanto, este documento tiene como objetivo producir la máscara de salida de las ubicaciones de las manzanas en el árbol automáticamente mediante el uso de una red de segmentación semántica profunda. La red debe ser lo suficientemente robusta como para superar todos los desafíos de sombra, iluminación circundante, variaciones de tamaño y oclusión para producir una localización precisa píxel a píxel de las manzanas. Una arquitectura profunda de alta resolución está incrustada con un diseño optimizado de operadores de grupo y shuffle (GSO) para producir la mejor red de segmentación de manzanas. GSO permite que la red reduzca la dependencia en unos pocos conjuntos de filtros convolucionales dominantes al obligar a cada grupo más pequeño a contribuir de manera efectiva a la tarea de extraer características óptimas de las manzanas. Los resultados experimentales muestran que la red propuesta, GSHR-Net, con dos conjuntos de convolución de grupo aplicados a todas las capas, produjo la mejor intersección media sobre unión de 0.8045. El rendimiento se ha comparado con otras 11 redes de segmentación semántica profundas de última generación. Para trabajos futuros, el rendimiento de la red puede aumentarse integrando datos sintéticos aumentados para optimizar aún más la fase de entrenamiento. Además, los mecanismos de atención basados en la atención espacial y de canal también pueden ser explorados al enfatizar algunas ubicaciones estratégicas de las manzanas, lo que hace que el reconocimiento sea más preciso.