Un estudio comparativo de varios métodos para manejar datos faltantes en UNSODA
Autores: Fu, Yingpeng; Liao, Hongjian; Lv, Longlong
Idioma: Inglés
Editor: MDPI
Año: 2021
Acceso abierto
Artículo científico
2021
Un estudio comparativo de varios métodos para manejar datos faltantes en UNSODA
Categoría
Ciencias Agrícolas y Biológicas
Subcategoría
Ciencias Agrícolas y Biológicas Generales
Palabras clave
Base de datos de suelo
Datos faltantes
Métodos de imputación
Aprendizaje automático
Basado en estadísticas
Confiabilidad
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
UNSODA, una base de datos internacional de suelos gratuita, es muy popular y se ha utilizado en muchos campos. Sin embargo, la falta de datos de propiedades del suelo ha limitado la utilidad de este conjunto de datos, especialmente para modelos basados en datos. Aquí, se utilizaron tres métodos basados en aprendizaje automático, es decir, regresión de bosques aleatorios (RF), regresión de vectores de soporte (SVR) y regresión de redes neuronales artificiales (ANN), y dos métodos basados en estadísticas, es decir, media e imputación múltiple (MI), para imputar los datos faltantes de propiedades del suelo, incluidos pH, conductividad hidráulica saturada (SHC), contenido de materia orgánica (OMC), porosidad (PO) y densidad de partículas (PD). También se imputaron las profundidades superiores (DU) e inferiores (DL) para las ubicaciones de muestreo. Antes de imputar los valores faltantes en UNSODA, se realizó una simulación de valores faltantes y se evaluó cuantitativamente. A continuación, se realizaron pruebas no paramétricas y regresión lineal múltiple para evaluar cualitativamente la confiabilidad de estos cinco métodos de imputación. Los resultados mostraron que los RMSE y MAE de todas las características fluctuaron dentro de rangos aceptables. La imputación de RF y MI presentaron los RMSE y MAE más bajos; ambos métodos son buenos para explicar la variabilidad de los datos. El error estándar, el coeficiente de variación y la desviación estándar disminuyeron significativamente después de la imputación, y no hubo diferencias significativas antes y después de la imputación. Juntos, DU, pH, SHC, OMC, PO y PD explicaron el 91.0%, 63.9%, 88.5%, 59.4% y 90.2% de la variación en BD utilizando RF, SVR, ANN, media y MI, respectivamente; y este valor fue del 99.8% cuando se descartaron los valores faltantes. Este estudio sugiere que los métodos de RF y MI pueden ser mejores para imputar los datos faltantes en UNSODA.
Descripción
UNSODA, una base de datos internacional de suelos gratuita, es muy popular y se ha utilizado en muchos campos. Sin embargo, la falta de datos de propiedades del suelo ha limitado la utilidad de este conjunto de datos, especialmente para modelos basados en datos. Aquí, se utilizaron tres métodos basados en aprendizaje automático, es decir, regresión de bosques aleatorios (RF), regresión de vectores de soporte (SVR) y regresión de redes neuronales artificiales (ANN), y dos métodos basados en estadísticas, es decir, media e imputación múltiple (MI), para imputar los datos faltantes de propiedades del suelo, incluidos pH, conductividad hidráulica saturada (SHC), contenido de materia orgánica (OMC), porosidad (PO) y densidad de partículas (PD). También se imputaron las profundidades superiores (DU) e inferiores (DL) para las ubicaciones de muestreo. Antes de imputar los valores faltantes en UNSODA, se realizó una simulación de valores faltantes y se evaluó cuantitativamente. A continuación, se realizaron pruebas no paramétricas y regresión lineal múltiple para evaluar cualitativamente la confiabilidad de estos cinco métodos de imputación. Los resultados mostraron que los RMSE y MAE de todas las características fluctuaron dentro de rangos aceptables. La imputación de RF y MI presentaron los RMSE y MAE más bajos; ambos métodos son buenos para explicar la variabilidad de los datos. El error estándar, el coeficiente de variación y la desviación estándar disminuyeron significativamente después de la imputación, y no hubo diferencias significativas antes y después de la imputación. Juntos, DU, pH, SHC, OMC, PO y PD explicaron el 91.0%, 63.9%, 88.5%, 59.4% y 90.2% de la variación en BD utilizando RF, SVR, ANN, media y MI, respectivamente; y este valor fue del 99.8% cuando se descartaron los valores faltantes. Este estudio sugiere que los métodos de RF y MI pueden ser mejores para imputar los datos faltantes en UNSODA.