Un método de imputación múltiple basado en aprendizaje automático para el estudio de salud y envejecimiento del cerebro - disparidades en salud
Autores: Zhang, Fan; Petersen, Melissa; Johnson, Leigh; Hall, James; Palmer, Raymond F.; O"Bryant, Sid E.; ,
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Un método de imputación múltiple basado en aprendizaje automático para el estudio de salud y envejecimiento del cerebro - disparidades en salud
Categoría
Gestión y administración
Subcategoría
Gestión de la tecnología y la inovación
Palabras clave
Salud
Envejecimiento
Disparidades
Datos
Imputación
Aprendizaje automático
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 1
Citaciones: Sin citaciones
El proyecto Estudio de Salud y Cerebro en Envejecimiento - Desigualdades en Salud (HABS-HD) busca entender los factores biológicos, sociales y ambientales que impactan el envejecimiento cerebral en comunidades diversas. Un problema común para HABS-HD es la falta de datos. Es imposible lograr un aprendizaje automático (ML) preciso si los datos contienen valores faltantes. Por lo tanto, desarrollar una nueva metodología de imputación se ha convertido en una tarea urgente para HABS-HD. Las tres suposiciones sobre datos faltantes, (1) faltantes completamente al azar (MCAR), (2) faltantes al azar (MAR) y (3) faltantes no al azar (MNAR), requieren enfoques de imputación distintos para cada mecanismo de falta. Varios métodos de imputación populares, incluyendo eliminación lista, mínimo, media, emparejamiento de media predictiva (PMM), árboles de clasificación y regresión (CART) y missForest, pueden resultar en resultados sesgados y reducción del poder estadístico cuando se aplican a análisis posteriores como pruebas de hipótesis relacionadas con variables clínicas o utilizando aprendizaje automático para predecir AD o MCI. Además, estas técnicas de imputación comúnmente utilizadas pueden producir estimaciones poco confiables de los valores faltantes si no tienen en cuenta los mecanismos de falta o si hay una inconsistencia entre el método de imputación y el mecanismo de datos faltantes en HABS-HD. Por lo tanto, propusimos un flujo de trabajo de tres pasos para manejar los datos faltantes en HABS-HD: (1) evaluación de datos faltantes, (2) imputación y (3) evaluación de imputación. Primero, exploramos la falta de datos en HABS-HD. Luego, desarrollamos un método de imputación múltiple basado en aprendizaje automático (MLMI) para imputar valores faltantes. Construimos cuatro modelos de imputación basados en ML (máquina de soporte vectorial (SVM), bosque aleatorio (RF), aumento de gradiente extremo (XGB) y modelo lineal generalizado regularizado por lasso y red elástica (GLMNET)) y adaptamos los cuatro modelos basados en ML a imputaciones múltiples utilizando el método de promediado simple. Por último, evaluamos y comparamos MLMI con otros métodos comunes. Nuestros resultados mostraron que el flujo de trabajo de tres pasos funcionó bien para manejar los valores faltantes en HABS-HD y el método de imputación múltiple basado en ML superó a otros métodos comunes en términos de rendimiento de predicción y cambio en la distribución y correlación. La elección de la metodología para manejar los datos faltantes tiene un impacto significativo en los análisis estadísticos acompañantes de HABS-HD. El flujo de trabajo conceptual de tres pasos y el método de imputación múltiple basado en ML funcionan bien para nuestros modelos de enfermedad de Alzheimer. También pueden aplicarse a otros análisis de datos de enfermedades.
Descripción
El proyecto Estudio de Salud y Cerebro en Envejecimiento - Desigualdades en Salud (HABS-HD) busca entender los factores biológicos, sociales y ambientales que impactan el envejecimiento cerebral en comunidades diversas. Un problema común para HABS-HD es la falta de datos. Es imposible lograr un aprendizaje automático (ML) preciso si los datos contienen valores faltantes. Por lo tanto, desarrollar una nueva metodología de imputación se ha convertido en una tarea urgente para HABS-HD. Las tres suposiciones sobre datos faltantes, (1) faltantes completamente al azar (MCAR), (2) faltantes al azar (MAR) y (3) faltantes no al azar (MNAR), requieren enfoques de imputación distintos para cada mecanismo de falta. Varios métodos de imputación populares, incluyendo eliminación lista, mínimo, media, emparejamiento de media predictiva (PMM), árboles de clasificación y regresión (CART) y missForest, pueden resultar en resultados sesgados y reducción del poder estadístico cuando se aplican a análisis posteriores como pruebas de hipótesis relacionadas con variables clínicas o utilizando aprendizaje automático para predecir AD o MCI. Además, estas técnicas de imputación comúnmente utilizadas pueden producir estimaciones poco confiables de los valores faltantes si no tienen en cuenta los mecanismos de falta o si hay una inconsistencia entre el método de imputación y el mecanismo de datos faltantes en HABS-HD. Por lo tanto, propusimos un flujo de trabajo de tres pasos para manejar los datos faltantes en HABS-HD: (1) evaluación de datos faltantes, (2) imputación y (3) evaluación de imputación. Primero, exploramos la falta de datos en HABS-HD. Luego, desarrollamos un método de imputación múltiple basado en aprendizaje automático (MLMI) para imputar valores faltantes. Construimos cuatro modelos de imputación basados en ML (máquina de soporte vectorial (SVM), bosque aleatorio (RF), aumento de gradiente extremo (XGB) y modelo lineal generalizado regularizado por lasso y red elástica (GLMNET)) y adaptamos los cuatro modelos basados en ML a imputaciones múltiples utilizando el método de promediado simple. Por último, evaluamos y comparamos MLMI con otros métodos comunes. Nuestros resultados mostraron que el flujo de trabajo de tres pasos funcionó bien para manejar los valores faltantes en HABS-HD y el método de imputación múltiple basado en ML superó a otros métodos comunes en términos de rendimiento de predicción y cambio en la distribución y correlación. La elección de la metodología para manejar los datos faltantes tiene un impacto significativo en los análisis estadísticos acompañantes de HABS-HD. El flujo de trabajo conceptual de tres pasos y el método de imputación múltiple basado en ML funcionan bien para nuestros modelos de enfermedad de Alzheimer. También pueden aplicarse a otros análisis de datos de enfermedades.