logo móvil
Contáctanos

Bosque aleatorio bayesiano con múltiple imputación mediante ecuaciones de encadenamiento para datos faltantes de alta dimensionalidad: un estudio de simulación

Autores: Olaniran, Oyebayo Ridwan; Alzahrani, Ali Rashash R.

Idioma: Inglés

Editor: MDPI

Año: 2025

Descargar PDF

Acceso abierto

Artículo científico
2025

Bosque aleatorio bayesiano con múltiple imputación mediante ecuaciones de encadenamiento para datos faltantes de alta dimensionalidad: un estudio de simulación


Categoría

Matemáticas

Subcategoría

Matemáticas generales

Palabras clave

Datos faltantes
Métodos de imputación
Múltiple Imputación por Ecuaciones Encadenadas
Bosque Aleatorio Bayesiano
Rendimiento predictivo
Precisión de imputación

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 16

Citaciones: Sin citaciones


Descripción
El desafío omnipresente de los datos faltantes en la investigación científica obliga a un compromiso crítico: desechar observaciones incompletas, lo que implica un riesgo significativo de pérdida de información, mientras que los métodos de imputación convencionales luchan por mantener la precisión en entornos de alta dimensionalidad. Aunque enfoques como la imputación múltiple (MI) y la imputación basada en la proximidad de random forest (RF) ofrecen mejoras sobre la eliminación ingenua, presentan limitaciones en escenarios complejos de datos faltantes o en entornos de alta dimensionalidad dispersa. Para abordar estas brechas, proponemos una integración novedosa de la Imputación Múltiple por Ecuaciones Encadenadas (MICE) con Random Forest Bayesiano (BRF), aprovechando la flexibilidad iterativa de MICE y la robustez probabilística de BRF para mejorar la precisión de la imputación y el rendimiento predictivo posterior. Nuestro marco híbrido, BRF-MICE, combina de manera única la eficiencia de las ecuaciones encadenadas de MICE con la capacidad de BRF para cuantificar la incertidumbre a través de ensambles de árboles bayesianos, proporcionando estimaciones de parámetros estables incluso en condiciones de faltantes extremas. Validamos empíricamente este enfoque utilizando conjuntos de datos sintéticos con mecanismos controlados de faltantes (MCAR, MAR, MNAR) y dimensionalidad, contrastándolo con métodos establecidos, incluidos RF y Árboles de Regresión Aditiva Bayesianos (BART). Los resultados demuestran que BRF-MICE logra un rendimiento superior en tareas de clasificación y regresión, con un error 15-20% menor bajo condiciones variables de faltantes en comparación con RF y BART, manteniendo la escalabilidad computacional. Las actualizaciones bayesianas iterativas del método propagan de manera efectiva la incertidumbre de la imputación, reduciendo la sobreconfianza en predicciones de alta dimensionalidad, una debilidad clave de las alternativas frecuentistas.

Otros recursos que podrían interesarte

Temas Virtualpro