Un método de estimación de rendimiento de cultivos adaptativo a la distancia de disparo basado en fusión multi-modal
Autores: Xu, Dan; Li, Ba; Xi, Guanyun; Wang, Shusheng; Xu, Lei; Ma, Juncheng
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Un método de estimación de rendimiento de cultivos adaptativo a la distancia de disparo basado en fusión multi-modal
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Agronomía y Ciencia de los Cultivos
Palabras clave
Aprendizaje profundo
Estimación del rendimiento de cultivos
RGB
Imagen de profundidad
Fusión multimodal
Distancia de disparo
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 26
Citaciones: Sin citaciones
Para abordar la baja precisión de estimación de rendimiento de cultivos basada en imágenes de aprendizaje profundo bajo distancias de disparo no entrenadas, este estudio propone un método de estimación de rendimiento de cultivos adaptativo a la distancia de disparo mediante la fusión de información de imágenes RGB y de profundidad a través de la fusión de datos multimodales. Tomando como ejemplo el peso fresco de la fruta de fresa, se recolectaron datos de imágenes RGB y de profundidad de 348 fresas a nueve alturas que van desde 70 a 115 cm. Primero, basado en imágenes RGB e información de altura de disparo, se desarrolló un modelo de estimación de rendimiento de cultivos unimodal mediante el entrenamiento de una red neuronal convolucional (CNN) después de recortar imágenes de fresas utilizando el método de conversión de área relativa. En segundo lugar, la información de altura se expandió en una matriz de datos que coincidía con las dimensiones de la imagen RGB, y se investigaron modelos de fusión multimodal a través de estrategias de fusión de capa de entrada y capa de salida. Finalmente, se exploraron dos enfoques adicionales: fusión directa de imágenes RGB y de profundidad, y extracción de la altura promedio de disparo de las imágenes de profundidad para la estimación. Los modelos se probaron a dos alturas no entrenadas (80 cm y 100 cm). Los resultados mostraron que al usar solo imágenes RGB e información de altura, el método de conversión de área relativa logró la mayor precisión, con valores de R de 0.9212 y 0.9304, error cuadrático medio normalizado (NRMSE) de 0.0866 y 0.0814, y error porcentual absoluto medio (MAPE) de 0.0696 y 0.0660 en las dos alturas no entrenadas. Al incorporar más datos de profundidad, la mayor precisión se logró mediante la fusión de capa de entrada de imágenes RGB con la altura promedio extraída de las imágenes de profundidad, mejorando R a 0.9475 y 0.9384, reduciendo NRMSE a 0.0707 y 0.0766, y disminuyendo MAPE a 0.0591 y 0.0610. La validación utilizando una plataforma desarrollada de estimación de rendimiento de cultivos adaptativa a la distancia de disparo en dos alturas aleatorias arrojó valores de MAPE de 0.0813 y 0.0593. Este modelo permite la estimación adaptativa de rendimiento de cultivos a través de distancias de disparo variables, mejorando significativamente la precisión bajo condiciones no entrenadas.
Descripción
Para abordar la baja precisión de estimación de rendimiento de cultivos basada en imágenes de aprendizaje profundo bajo distancias de disparo no entrenadas, este estudio propone un método de estimación de rendimiento de cultivos adaptativo a la distancia de disparo mediante la fusión de información de imágenes RGB y de profundidad a través de la fusión de datos multimodales. Tomando como ejemplo el peso fresco de la fruta de fresa, se recolectaron datos de imágenes RGB y de profundidad de 348 fresas a nueve alturas que van desde 70 a 115 cm. Primero, basado en imágenes RGB e información de altura de disparo, se desarrolló un modelo de estimación de rendimiento de cultivos unimodal mediante el entrenamiento de una red neuronal convolucional (CNN) después de recortar imágenes de fresas utilizando el método de conversión de área relativa. En segundo lugar, la información de altura se expandió en una matriz de datos que coincidía con las dimensiones de la imagen RGB, y se investigaron modelos de fusión multimodal a través de estrategias de fusión de capa de entrada y capa de salida. Finalmente, se exploraron dos enfoques adicionales: fusión directa de imágenes RGB y de profundidad, y extracción de la altura promedio de disparo de las imágenes de profundidad para la estimación. Los modelos se probaron a dos alturas no entrenadas (80 cm y 100 cm). Los resultados mostraron que al usar solo imágenes RGB e información de altura, el método de conversión de área relativa logró la mayor precisión, con valores de R de 0.9212 y 0.9304, error cuadrático medio normalizado (NRMSE) de 0.0866 y 0.0814, y error porcentual absoluto medio (MAPE) de 0.0696 y 0.0660 en las dos alturas no entrenadas. Al incorporar más datos de profundidad, la mayor precisión se logró mediante la fusión de capa de entrada de imágenes RGB con la altura promedio extraída de las imágenes de profundidad, mejorando R a 0.9475 y 0.9384, reduciendo NRMSE a 0.0707 y 0.0766, y disminuyendo MAPE a 0.0591 y 0.0610. La validación utilizando una plataforma desarrollada de estimación de rendimiento de cultivos adaptativa a la distancia de disparo en dos alturas aleatorias arrojó valores de MAPE de 0.0813 y 0.0593. Este modelo permite la estimación adaptativa de rendimiento de cultivos a través de distancias de disparo variables, mejorando significativamente la precisión bajo condiciones no entrenadas.