Bosque aleatorio bayesiano con múltiple imputación mediante ecuaciones de encadenamiento para datos faltantes de alta dimensionalidad: un estudio de simulación
Autores: Olaniran, Oyebayo Ridwan; Alzahrani, Ali Rashash R.
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Bosque aleatorio bayesiano con múltiple imputación mediante ecuaciones de encadenamiento para datos faltantes de alta dimensionalidad: un estudio de simulación
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Datos faltantes
Métodos de imputación
Múltiple Imputación por Ecuaciones Encadenadas
Bosque Aleatorio Bayesiano
Rendimiento predictivo
Precisión de imputación
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 16
Citaciones: Sin citaciones
El desafío omnipresente de los datos faltantes en la investigación científica obliga a un compromiso crítico: desechar observaciones incompletas, lo que implica un riesgo significativo de pérdida de información, mientras que los métodos de imputación convencionales luchan por mantener la precisión en entornos de alta dimensionalidad. Aunque enfoques como la imputación múltiple (MI) y la imputación basada en la proximidad de random forest (RF) ofrecen mejoras sobre la eliminación ingenua, presentan limitaciones en escenarios complejos de datos faltantes o en entornos de alta dimensionalidad dispersa. Para abordar estas brechas, proponemos una integración novedosa de la Imputación Múltiple por Ecuaciones Encadenadas (MICE) con Random Forest Bayesiano (BRF), aprovechando la flexibilidad iterativa de MICE y la robustez probabilística de BRF para mejorar la precisión de la imputación y el rendimiento predictivo posterior. Nuestro marco híbrido, BRF-MICE, combina de manera única la eficiencia de las ecuaciones encadenadas de MICE con la capacidad de BRF para cuantificar la incertidumbre a través de ensambles de árboles bayesianos, proporcionando estimaciones de parámetros estables incluso en condiciones de faltantes extremas. Validamos empíricamente este enfoque utilizando conjuntos de datos sintéticos con mecanismos controlados de faltantes (MCAR, MAR, MNAR) y dimensionalidad, contrastándolo con métodos establecidos, incluidos RF y Árboles de Regresión Aditiva Bayesianos (BART). Los resultados demuestran que BRF-MICE logra un rendimiento superior en tareas de clasificación y regresión, con un error 15-20% menor bajo condiciones variables de faltantes en comparación con RF y BART, manteniendo la escalabilidad computacional. Las actualizaciones bayesianas iterativas del método propagan de manera efectiva la incertidumbre de la imputación, reduciendo la sobreconfianza en predicciones de alta dimensionalidad, una debilidad clave de las alternativas frecuentistas.
Descripción
El desafío omnipresente de los datos faltantes en la investigación científica obliga a un compromiso crítico: desechar observaciones incompletas, lo que implica un riesgo significativo de pérdida de información, mientras que los métodos de imputación convencionales luchan por mantener la precisión en entornos de alta dimensionalidad. Aunque enfoques como la imputación múltiple (MI) y la imputación basada en la proximidad de random forest (RF) ofrecen mejoras sobre la eliminación ingenua, presentan limitaciones en escenarios complejos de datos faltantes o en entornos de alta dimensionalidad dispersa. Para abordar estas brechas, proponemos una integración novedosa de la Imputación Múltiple por Ecuaciones Encadenadas (MICE) con Random Forest Bayesiano (BRF), aprovechando la flexibilidad iterativa de MICE y la robustez probabilística de BRF para mejorar la precisión de la imputación y el rendimiento predictivo posterior. Nuestro marco híbrido, BRF-MICE, combina de manera única la eficiencia de las ecuaciones encadenadas de MICE con la capacidad de BRF para cuantificar la incertidumbre a través de ensambles de árboles bayesianos, proporcionando estimaciones de parámetros estables incluso en condiciones de faltantes extremas. Validamos empíricamente este enfoque utilizando conjuntos de datos sintéticos con mecanismos controlados de faltantes (MCAR, MAR, MNAR) y dimensionalidad, contrastándolo con métodos establecidos, incluidos RF y Árboles de Regresión Aditiva Bayesianos (BART). Los resultados demuestran que BRF-MICE logra un rendimiento superior en tareas de clasificación y regresión, con un error 15-20% menor bajo condiciones variables de faltantes en comparación con RF y BART, manteniendo la escalabilidad computacional. Las actualizaciones bayesianas iterativas del método propagan de manera efectiva la incertidumbre de la imputación, reduciendo la sobreconfianza en predicciones de alta dimensionalidad, una debilidad clave de las alternativas frecuentistas.