Rendimiento y filtración de información en el aprendizaje SplitFed y el aprendizaje dividido de múltiples cabeceras en datos de salud y más allá
Autores: Joshi, Praveen; Thapa, Chandra; Camtepe, Seyit; Hasanuzzaman, Mohammed; Scully, Ted; Afli, Haithem
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Rendimiento y filtración de información en el aprendizaje SplitFed y el aprendizaje dividido de múltiples cabeceras en datos de salud y más allá
Categoría
Ingeniería y Tecnología
Subcategoría
Bioingeniería
Palabras clave
Aprendizaje automático
Análisis de datos de salud
Aprendizaje distribuido
Aprendizaje splitfed
Sincronización de modelos en el lado del cliente
Fuga de información
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 31
Citaciones: Sin citaciones
El aprendizaje automático (ML) en análisis de datos de salud está atrayendo mucha atención debido al poder sin precedentes del ML para extraer conocimientos que mejoran el proceso de toma de decisiones. Al mismo tiempo, las leyes y códigos éticos redactados por los países para gobernar los datos de salud se están volviendo más estrictos. Aunque los profesionales de la salud están luchando con un marco de gobierno reforzado, vemos la aparición de marcos de aprendizaje distribuido que perturban el desarrollo tradicional de modelos de ML. El aprendizaje dividido (SFL) es uno de los desarrollos recientes en aprendizaje automático distribuido que capacita a los profesionales de la salud para preservar la privacidad de los datos de entrada y les permite entrenar modelos de ML. Sin embargo, SFL tiene algunos costos adicionales de comunicación y cálculo en el lado del cliente debido a la necesidad de sincronización del modelo en el lado del cliente. Para un cliente con recursos limitados (hospitales con capacidades computacionales limitadas), es necesario eliminar tales condiciones para ganar eficiencia en el aprendizaje. En este sentido, este documento estudia SFL sin sincronización del modelo en el lado del cliente. La arquitectura resultante se conoce como aprendizaje dividido de múltiples cabezas (MHSL). Al mismo tiempo, es importante investigar la fuga de información, que indica cuánta información obtiene el servidor relacionada con los datos en bruto directamente de los datos aplastados, la salida de la porción del modelo en el lado del cliente que le pasa el cliente. Nuestros estudios empíricos examinan el modelo de arquitectura Resnet-18 y Conv1-D en los conjuntos de datos ECG y HAM-10000 bajo distribución de datos IID. Los resultados muestran que SFL proporciona un 1,81% y un 2,36% de mejor precisión que MHSL en los conjuntos de datos ECG y HAM-10000, respectivamente (para un valor de capa de corte establecido en 1). El análisis de la experimentación con varias porciones del modelo en el lado del cliente demuestra que tiene un impacto en el rendimiento general. Con un aumento en las capas en la porción del modelo en el lado del cliente, el rendimiento de SFL mejora, mientras que el rendimiento de MHSL se degrada. Los resultados de los experimentos también demuestran que la fuga de información proporcionada por los valores de puntuación de información mutua en SFL es mayor que en MHSL para los conjuntos de datos ECG y HAM-10000 en y , respectivamente.
Descripción
El aprendizaje automático (ML) en análisis de datos de salud está atrayendo mucha atención debido al poder sin precedentes del ML para extraer conocimientos que mejoran el proceso de toma de decisiones. Al mismo tiempo, las leyes y códigos éticos redactados por los países para gobernar los datos de salud se están volviendo más estrictos. Aunque los profesionales de la salud están luchando con un marco de gobierno reforzado, vemos la aparición de marcos de aprendizaje distribuido que perturban el desarrollo tradicional de modelos de ML. El aprendizaje dividido (SFL) es uno de los desarrollos recientes en aprendizaje automático distribuido que capacita a los profesionales de la salud para preservar la privacidad de los datos de entrada y les permite entrenar modelos de ML. Sin embargo, SFL tiene algunos costos adicionales de comunicación y cálculo en el lado del cliente debido a la necesidad de sincronización del modelo en el lado del cliente. Para un cliente con recursos limitados (hospitales con capacidades computacionales limitadas), es necesario eliminar tales condiciones para ganar eficiencia en el aprendizaje. En este sentido, este documento estudia SFL sin sincronización del modelo en el lado del cliente. La arquitectura resultante se conoce como aprendizaje dividido de múltiples cabezas (MHSL). Al mismo tiempo, es importante investigar la fuga de información, que indica cuánta información obtiene el servidor relacionada con los datos en bruto directamente de los datos aplastados, la salida de la porción del modelo en el lado del cliente que le pasa el cliente. Nuestros estudios empíricos examinan el modelo de arquitectura Resnet-18 y Conv1-D en los conjuntos de datos ECG y HAM-10000 bajo distribución de datos IID. Los resultados muestran que SFL proporciona un 1,81% y un 2,36% de mejor precisión que MHSL en los conjuntos de datos ECG y HAM-10000, respectivamente (para un valor de capa de corte establecido en 1). El análisis de la experimentación con varias porciones del modelo en el lado del cliente demuestra que tiene un impacto en el rendimiento general. Con un aumento en las capas en la porción del modelo en el lado del cliente, el rendimiento de SFL mejora, mientras que el rendimiento de MHSL se degrada. Los resultados de los experimentos también demuestran que la fuga de información proporcionada por los valores de puntuación de información mutua en SFL es mayor que en MHSL para los conjuntos de datos ECG y HAM-10000 en y , respectivamente.