logo móvil
Contáctanos

Un método de imputación múltiple basado en aprendizaje automático para el estudio de salud y envejecimiento del cerebro - disparidades en salud

Autores: Zhang, Fan; Petersen, Melissa; Johnson, Leigh; Hall, James; Palmer, Raymond F.; O"Bryant, Sid E.; ,

Idioma: Inglés

Editor: MDPI

Año: 2023

Descargar PDF

Acceso abierto

Artículo científico
2023

Un método de imputación múltiple basado en aprendizaje automático para el estudio de salud y envejecimiento del cerebro - disparidades en salud


Categoría

Gestión y administración

Subcategoría

Gestión de la tecnología y la inovación

Palabras clave

Salud
Envejecimiento
Disparidades
Datos
Imputación
Aprendizaje automático

Licencia

CC BY-SA – Atribución – Compartir Igual

Consultas: 1

Citaciones: Sin citaciones


Descripción
El proyecto Estudio de Salud y Cerebro en Envejecimiento - Desigualdades en Salud (HABS-HD) busca entender los factores biológicos, sociales y ambientales que impactan el envejecimiento cerebral en comunidades diversas. Un problema común para HABS-HD es la falta de datos. Es imposible lograr un aprendizaje automático (ML) preciso si los datos contienen valores faltantes. Por lo tanto, desarrollar una nueva metodología de imputación se ha convertido en una tarea urgente para HABS-HD. Las tres suposiciones sobre datos faltantes, (1) faltantes completamente al azar (MCAR), (2) faltantes al azar (MAR) y (3) faltantes no al azar (MNAR), requieren enfoques de imputación distintos para cada mecanismo de falta. Varios métodos de imputación populares, incluyendo eliminación lista, mínimo, media, emparejamiento de media predictiva (PMM), árboles de clasificación y regresión (CART) y missForest, pueden resultar en resultados sesgados y reducción del poder estadístico cuando se aplican a análisis posteriores como pruebas de hipótesis relacionadas con variables clínicas o utilizando aprendizaje automático para predecir AD o MCI. Además, estas técnicas de imputación comúnmente utilizadas pueden producir estimaciones poco confiables de los valores faltantes si no tienen en cuenta los mecanismos de falta o si hay una inconsistencia entre el método de imputación y el mecanismo de datos faltantes en HABS-HD. Por lo tanto, propusimos un flujo de trabajo de tres pasos para manejar los datos faltantes en HABS-HD: (1) evaluación de datos faltantes, (2) imputación y (3) evaluación de imputación. Primero, exploramos la falta de datos en HABS-HD. Luego, desarrollamos un método de imputación múltiple basado en aprendizaje automático (MLMI) para imputar valores faltantes. Construimos cuatro modelos de imputación basados en ML (máquina de soporte vectorial (SVM), bosque aleatorio (RF), aumento de gradiente extremo (XGB) y modelo lineal generalizado regularizado por lasso y red elástica (GLMNET)) y adaptamos los cuatro modelos basados en ML a imputaciones múltiples utilizando el método de promediado simple. Por último, evaluamos y comparamos MLMI con otros métodos comunes. Nuestros resultados mostraron que el flujo de trabajo de tres pasos funcionó bien para manejar los valores faltantes en HABS-HD y el método de imputación múltiple basado en ML superó a otros métodos comunes en términos de rendimiento de predicción y cambio en la distribución y correlación. La elección de la metodología para manejar los datos faltantes tiene un impacto significativo en los análisis estadísticos acompañantes de HABS-HD. El flujo de trabajo conceptual de tres pasos y el método de imputación múltiple basado en ML funcionan bien para nuestros modelos de enfermedad de Alzheimer. También pueden aplicarse a otros análisis de datos de enfermedades.

Otros recursos que podrían interesarte

Temas Virtualpro