Integrando enfoques de bosque aleatorio basado en cópulas y aprendizaje profundo para analizar efectos de tratamiento heterogéneos en análisis de supervivencia
Autores: Kim, Jong-Min
Idioma: Inglés
Editor: MDPI
Año: 2025
Acceso abierto
Artículo científico
2025
Integrando enfoques de bosque aleatorio basado en cópulas y aprendizaje profundo para analizar efectos de tratamiento heterogéneos en análisis de supervivencia
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Modelos de aprendizaje profundo
Redes LSTM
CNN-LSTM
Bosque Aleatorio basado en Cópula
Efectos de Tratamiento Heterogéneos
Raza
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
Este documento presenta modelos de aprendizaje profundo, específicamente redes Long Short-Term Memory (LSTM) y una red híbrida Convolutional Neural Network-LSTM (CNN-LSTM) con un modelo Copula-Based Random Forest (CBRF) para estimar Efectos de Tratamiento Heterogéneos (HTEs) en análisis de supervivencia. El método propuesto está diseñado para capturar relaciones no lineales y dependencias temporales en datos clínicos y genómicos, con un enfoque particular en explorar cómo varían los efectos del tratamiento por raza como factor moderador. Utilizando datos de cáncer de mama del conjunto de datos TCGA-BRCA, que incluye variables clínicas y perfiles de expresión génica, filtramos los datos para enfocarnos en dos grupos raciales: Negros o Afroamericanos y Blancos. Se realiza una reducción de dimensionalidad utilizando Análisis de Componentes Principales (PCA). Comparamos los modelos CNN-LSTM, LSTM y CBRF bajo tres estrategias de ponderación: sin ponderaciones, ponderaciones de Horvitz-Thompson (HT) y Ponderación de la Probabilidad Inversa de Tratamiento (IPTW), para predecir los efectos del tratamiento. El rendimiento del modelo se evalúa utilizando Error Cuadrático Medio (RMSE), Error Absoluto Medio (MAE), estadística de Concordancia (C-estadística), Efecto de Tratamiento Promedio (ATE) y Efecto de Tratamiento Promedio Condicional (CATE) por raza. El modelo CNN-LSTM supera consistentemente a los demás, logrando los errores de predicción más bajos y la mayor discriminación, especialmente bajo IPTW. Entre las estrategias de ponderación, IPTW produce las mejoras más sustanciales en el rendimiento del modelo y la reducción del sesgo. Es importante destacar que los efectos del tratamiento específicos por raza muestran una notable variación: CNN-LSTM estima un CATE ligeramente más alto para individuos Negros bajo IPTW. En general, se recomienda el uso de CNN-LSTM con IPTW para inferencia causal robusta y equitativa, especialmente en entornos estratificados por raza.
Descripción
Este documento presenta modelos de aprendizaje profundo, específicamente redes Long Short-Term Memory (LSTM) y una red híbrida Convolutional Neural Network-LSTM (CNN-LSTM) con un modelo Copula-Based Random Forest (CBRF) para estimar Efectos de Tratamiento Heterogéneos (HTEs) en análisis de supervivencia. El método propuesto está diseñado para capturar relaciones no lineales y dependencias temporales en datos clínicos y genómicos, con un enfoque particular en explorar cómo varían los efectos del tratamiento por raza como factor moderador. Utilizando datos de cáncer de mama del conjunto de datos TCGA-BRCA, que incluye variables clínicas y perfiles de expresión génica, filtramos los datos para enfocarnos en dos grupos raciales: Negros o Afroamericanos y Blancos. Se realiza una reducción de dimensionalidad utilizando Análisis de Componentes Principales (PCA). Comparamos los modelos CNN-LSTM, LSTM y CBRF bajo tres estrategias de ponderación: sin ponderaciones, ponderaciones de Horvitz-Thompson (HT) y Ponderación de la Probabilidad Inversa de Tratamiento (IPTW), para predecir los efectos del tratamiento. El rendimiento del modelo se evalúa utilizando Error Cuadrático Medio (RMSE), Error Absoluto Medio (MAE), estadística de Concordancia (C-estadística), Efecto de Tratamiento Promedio (ATE) y Efecto de Tratamiento Promedio Condicional (CATE) por raza. El modelo CNN-LSTM supera consistentemente a los demás, logrando los errores de predicción más bajos y la mayor discriminación, especialmente bajo IPTW. Entre las estrategias de ponderación, IPTW produce las mejoras más sustanciales en el rendimiento del modelo y la reducción del sesgo. Es importante destacar que los efectos del tratamiento específicos por raza muestran una notable variación: CNN-LSTM estima un CATE ligeramente más alto para individuos Negros bajo IPTW. En general, se recomienda el uso de CNN-LSTM con IPTW para inferencia causal robusta y equitativa, especialmente en entornos estratificados por raza.