Selección de cliente consciente de la calidad de los datos en el aprendizaje federado heterogéneo
Autores: Song, Shinan; Li, Yaxin; Wan, Jin; Fu, Xianghua; Jiang, Jingyan
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Selección de cliente consciente de la calidad de los datos en el aprendizaje federado heterogéneo
Categoría
Matemáticas
Subcategoría
Matemáticas generales
Palabras clave
Aprendizaje federado
Calidad de datos
Muestras ruidosas
Deriva del cliente
Heterogeneidad de datos
FedDQA
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 24
Citaciones: Sin citaciones
El Aprendizaje Federado (FL) permite la utilización descentralizada de datos manteniendo la privacidad de los usuarios, pero enfrenta desafíos debido a la heterogeneidad estadística. Los enfoques existentes abordan la deriva de los clientes y los problemas de heterogeneidad de datos. Sin embargo, los entornos del mundo real a menudo involucran datos de baja calidad con características ruidosas, como la deriva de covariables o muestras adversarias, que suelen ser ignoradas. Las muestras ruidosas impactan significativamente la precisión del modelo global y la tasa de convergencia. Evaluar la calidad de los datos y agregar selectivamente las actualizaciones de clientes de alta calidad es crucial, pero percibir dinámicamente la calidad de los datos sin cálculos adicionales o intercambios de datos es un desafío. En este documento, presentamos el marco FedDQA (Aprendizaje Federado a través de la Conciencia de la Calidad de los Datos) (FedDQA). Descubrimos que un aumento en el ruido de los datos conduce a una reducción más lenta de la pérdida durante el entrenamiento del modelo local. Proponemos una métrica de Conciencia de la Calidad de los Datos (DQA) basada en la nitidez de la pérdida para diferenciar entre datos de alta calidad y baja calidad. Basándonos en el DQA, diseñamos un algoritmo de selección de clientes que selecciona estratégicamente clientes participantes para reducir el impacto negativo de los clientes ruidosos. Los resultados experimentales indican que FedDQA supera significativamente a los baselines. Notablemente, logra hasta un 4% de aumento en la precisión del modelo global y demuestra tasas de convergencia más rápidas.
Descripción
El Aprendizaje Federado (FL) permite la utilización descentralizada de datos manteniendo la privacidad de los usuarios, pero enfrenta desafíos debido a la heterogeneidad estadística. Los enfoques existentes abordan la deriva de los clientes y los problemas de heterogeneidad de datos. Sin embargo, los entornos del mundo real a menudo involucran datos de baja calidad con características ruidosas, como la deriva de covariables o muestras adversarias, que suelen ser ignoradas. Las muestras ruidosas impactan significativamente la precisión del modelo global y la tasa de convergencia. Evaluar la calidad de los datos y agregar selectivamente las actualizaciones de clientes de alta calidad es crucial, pero percibir dinámicamente la calidad de los datos sin cálculos adicionales o intercambios de datos es un desafío. En este documento, presentamos el marco FedDQA (Aprendizaje Federado a través de la Conciencia de la Calidad de los Datos) (FedDQA). Descubrimos que un aumento en el ruido de los datos conduce a una reducción más lenta de la pérdida durante el entrenamiento del modelo local. Proponemos una métrica de Conciencia de la Calidad de los Datos (DQA) basada en la nitidez de la pérdida para diferenciar entre datos de alta calidad y baja calidad. Basándonos en el DQA, diseñamos un algoritmo de selección de clientes que selecciona estratégicamente clientes participantes para reducir el impacto negativo de los clientes ruidosos. Los resultados experimentales indican que FedDQA supera significativamente a los baselines. Notablemente, logra hasta un 4% de aumento en la precisión del modelo global y demuestra tasas de convergencia más rápidas.