logo móvil
Contáctanos

Un estudio comparativo de varios métodos para manejar datos faltantes en UNSODA

Autores: Fu, Yingpeng; Liao, Hongjian; Lv, Longlong

Idioma: Inglés

Editor: MDPI

Año: 2021

Descargar PDF

Acceso abierto

Artículo científico
2021

Un estudio comparativo de varios métodos para manejar datos faltantes en UNSODA


Categoría

Ciencias Agrícolas y Biológicas

Subcategoría

Ciencias Agrícolas y Biológicas Generales

Palabras clave

Base de datos de suelo
Datos faltantes
Métodos de imputación
Aprendizaje automático
Basado en estadísticas
Confiabilidad

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 33

Citaciones: Sin citaciones


Descripción
UNSODA, una base de datos internacional de suelos gratuita, es muy popular y se ha utilizado en muchos campos. Sin embargo, la falta de datos de propiedades del suelo ha limitado la utilidad de este conjunto de datos, especialmente para modelos basados en datos. Aquí, se utilizaron tres métodos basados en aprendizaje automático, es decir, regresión de bosques aleatorios (RF), regresión de vectores de soporte (SVR) y regresión de redes neuronales artificiales (ANN), y dos métodos basados en estadísticas, es decir, media e imputación múltiple (MI), para imputar los datos faltantes de propiedades del suelo, incluidos pH, conductividad hidráulica saturada (SHC), contenido de materia orgánica (OMC), porosidad (PO) y densidad de partículas (PD). También se imputaron las profundidades superiores (DU) e inferiores (DL) para las ubicaciones de muestreo. Antes de imputar los valores faltantes en UNSODA, se realizó una simulación de valores faltantes y se evaluó cuantitativamente. A continuación, se realizaron pruebas no paramétricas y regresión lineal múltiple para evaluar cualitativamente la confiabilidad de estos cinco métodos de imputación. Los resultados mostraron que los RMSE y MAE de todas las características fluctuaron dentro de rangos aceptables. La imputación de RF y MI presentaron los RMSE y MAE más bajos; ambos métodos son buenos para explicar la variabilidad de los datos. El error estándar, el coeficiente de variación y la desviación estándar disminuyeron significativamente después de la imputación, y no hubo diferencias significativas antes y después de la imputación. Juntos, DU, pH, SHC, OMC, PO y PD explicaron el 91.0%, 63.9%, 88.5%, 59.4% y 90.2% de la variación en BD utilizando RF, SVR, ANN, media y MI, respectivamente; y este valor fue del 99.8% cuando se descartaron los valores faltantes. Este estudio sugiere que los métodos de RF y MI pueden ser mejores para imputar los datos faltantes en UNSODA.

Otros recursos que podrían interesarte

Temas Virtualpro