Algoritmo de muestreo óptimo simple para fortalecer el mapeo digital del suelo utilizando la distribución espacial de la incertidumbre predictiva del aprendizaje automático: un estudio de caso para la predicción de la capacidad de campo
Autores: Yang, Hyunje; Lim, Honggeun; Moon, Haewon; Li, Qiwen; Nam, Sooyoun; Kim, Jaehoon; Choi, Hyung Tae
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Algoritmo de muestreo óptimo simple para fortalecer el mapeo digital del suelo utilizando la distribución espacial de la incertidumbre predictiva del aprendizaje automático: un estudio de caso para la predicción de la capacidad de campo
Categoría
Ciencias Medioambientales
Subcategoría
Ciencias medioambientales generales
Palabras clave
Modelos de aprendizaje automático
Mapeo digital del suelo
Sitios de muestreo óptimos
Tamaño de la muestra
Incertidumbre predictiva
Datos de entrenamiento
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
Los modelos de aprendizaje automático ahora son capaces de ofrecer los codiciados beneficios del mapeo digital de suelos (DSM) (por ejemplo, la predicción de la capacidad de campo (FC)); por lo tanto, determinar los sitios de muestreo óptimos y el tamaño de la muestra es esencial para maximizar la eficacia del entrenamiento. Resolvemos esto con un novedoso algoritmo de muestreo óptimo que permite la auténtica augmentación de características del suelo insuficientes utilizando la incertidumbre predictiva del aprendizaje automático. Se utilizaron novecientos cincuenta y tres muestras de suelo forestal y información forestal geográficamente referenciada para desarrollar modelos predictivos, y se estimaron las FC en Corea del Sur con seis jerarquías de conjuntos de predictores. Se utilizaron modelos de bosque aleatorio y de aumento de gradiente para la estimación, ya que los modelos basados en árboles tenían un mejor rendimiento predictivo que otros algoritmos de aprendizaje automático. Hubo una relación significativa entre las incertidumbres predictivas del modelo y la distribución de los datos de entrenamiento, donde las mayores incertidumbres se distribuyeron en el área de escasez de datos. Además, confirmamos que las incertidumbres predictivas disminuyeron cuando se añadieron sitios de muestreo adicionales a los datos de entrenamiento. La información de covariables ambientales de cada celda de la cuadrícula en Corea del Sur se utilizó luego para seleccionar los sitios de muestreo. Los sitios óptimos se coordinaron en la celda que tenía la mayor incertidumbre predictiva, y el tamaño de la muestra se determinó utilizando la tasa predecible. Este método intuitivo puede generalizarse para mejorar el DSM global.
Descripción
Los modelos de aprendizaje automático ahora son capaces de ofrecer los codiciados beneficios del mapeo digital de suelos (DSM) (por ejemplo, la predicción de la capacidad de campo (FC)); por lo tanto, determinar los sitios de muestreo óptimos y el tamaño de la muestra es esencial para maximizar la eficacia del entrenamiento. Resolvemos esto con un novedoso algoritmo de muestreo óptimo que permite la auténtica augmentación de características del suelo insuficientes utilizando la incertidumbre predictiva del aprendizaje automático. Se utilizaron novecientos cincuenta y tres muestras de suelo forestal y información forestal geográficamente referenciada para desarrollar modelos predictivos, y se estimaron las FC en Corea del Sur con seis jerarquías de conjuntos de predictores. Se utilizaron modelos de bosque aleatorio y de aumento de gradiente para la estimación, ya que los modelos basados en árboles tenían un mejor rendimiento predictivo que otros algoritmos de aprendizaje automático. Hubo una relación significativa entre las incertidumbres predictivas del modelo y la distribución de los datos de entrenamiento, donde las mayores incertidumbres se distribuyeron en el área de escasez de datos. Además, confirmamos que las incertidumbres predictivas disminuyeron cuando se añadieron sitios de muestreo adicionales a los datos de entrenamiento. La información de covariables ambientales de cada celda de la cuadrícula en Corea del Sur se utilizó luego para seleccionar los sitios de muestreo. Los sitios óptimos se coordinaron en la celda que tenía la mayor incertidumbre predictiva, y el tamaño de la muestra se determinó utilizando la tasa predecible. Este método intuitivo puede generalizarse para mejorar el DSM global.