CRLNet: Una Red de Detección de Duraznos Multimodal Basada en la Mejora Asintótica Cooperativa y la Fusión de Refinamiento de Granularidad
Autores: Liu, Jiahao; He, Chaoying; Wang, Mingfang; Jiang, Yichu; Sun, Manman; Yan, Miying; He, Mingfang
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
CRLNet: Una Red de Detección de Duraznos Multimodal Basada en la Mejora Asintótica Cooperativa y la Fusión de Refinamiento de Granularidad
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Botánica
Palabras clave
Durazno
Detección
Imágenes RGB
Imágenes de profundidad
Detector multimodal
YOLOv9
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 9
Citaciones: Sin citaciones
La detección precisa de duraznos es esencial para la gestión agronómica automatizada, como la cosecha mecánica de duraznos. Sin embargo, la oclusión ubicua hace que identificar duraznos en fondos complejos sea extremadamente desafiante. Además, es difícil capturar características finas de los duraznos a partir de una sola imagen RGB, que puede verse afectada por la luz y el ruido en escenarios con densos grupos de pequeños objetivos y luz extrema. Para resolver estos problemas, este estudio propone un detector multimodal, llamado CRLNet, basado en imágenes RGB y de profundidad. Primero, se amplió YOLOv9 para diseñar una red de respaldo que pueda extraer características RGB y de profundidad en paralelo a partir de una imagen. En segundo lugar, para abordar el problema del sesgo en la fusión de información, se diseñó el Módulo de Fusión de Atención Híbrida Rústica-Fina (RFAM) para combinar la información ventajosa de diferentes modos mientras suprime el ruido hueco en el borde del durazno. Finalmente, se desarrolló un Módulo de Mejora Conjunta Local-Global basado en Transformer (LGEM) para mejorar conjuntamente las características locales y globales de los duraznos utilizando información de diferentes modalidades con el fin de aumentar el porcentaje de información sobre los duraznos objetivo y eliminar la interferencia de la información de fondo redundante. CRLNet fue entrenado en el conjunto de datos de duraznos y evaluado en comparación con otros métodos de vanguardia; el modelo logró un 97.1%. Además, CRLNet también alcanzó un 92.4% en experimentos generalizados, validando su fuerte capacidad de generalización. Estos resultados proporcionan valiosas ideas para la detección multimodal de duraznos y otras frutas al aire libre.
Descripción
La detección precisa de duraznos es esencial para la gestión agronómica automatizada, como la cosecha mecánica de duraznos. Sin embargo, la oclusión ubicua hace que identificar duraznos en fondos complejos sea extremadamente desafiante. Además, es difícil capturar características finas de los duraznos a partir de una sola imagen RGB, que puede verse afectada por la luz y el ruido en escenarios con densos grupos de pequeños objetivos y luz extrema. Para resolver estos problemas, este estudio propone un detector multimodal, llamado CRLNet, basado en imágenes RGB y de profundidad. Primero, se amplió YOLOv9 para diseñar una red de respaldo que pueda extraer características RGB y de profundidad en paralelo a partir de una imagen. En segundo lugar, para abordar el problema del sesgo en la fusión de información, se diseñó el Módulo de Fusión de Atención Híbrida Rústica-Fina (RFAM) para combinar la información ventajosa de diferentes modos mientras suprime el ruido hueco en el borde del durazno. Finalmente, se desarrolló un Módulo de Mejora Conjunta Local-Global basado en Transformer (LGEM) para mejorar conjuntamente las características locales y globales de los duraznos utilizando información de diferentes modalidades con el fin de aumentar el porcentaje de información sobre los duraznos objetivo y eliminar la interferencia de la información de fondo redundante. CRLNet fue entrenado en el conjunto de datos de duraznos y evaluado en comparación con otros métodos de vanguardia; el modelo logró un 97.1%. Además, CRLNet también alcanzó un 92.4% en experimentos generalizados, validando su fuerte capacidad de generalización. Estos resultados proporcionan valiosas ideas para la detección multimodal de duraznos y otras frutas al aire libre.