Ataques de envenenamiento de datos impulsados por GAN y su mitigación en sistemas de aprendizaje federado
Autores: Psychogyios, Konstantinos; Velivassaki, Terpsichori-Helen; Bourou, Stavroula; Voulkidis, Artemis; Skias, Dimitrios; Zahariadis, Theodore
Idioma: Inglés
Editor: MDPI
Año: 2023
Acceso abierto
Artículo científico
2023
Ataques de envenenamiento de datos impulsados por GAN y su mitigación en sistemas de aprendizaje federado
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Aprendizaje federado
Privacidad de datos
Ataques
Envenenamiento de datos
Cambio de etiquetas
Mecanismo de defensa
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El aprendizaje federado (FL) es una técnica emergente de aprendizaje automático donde los modelos de aprendizaje automático se entrenan de manera descentralizada. La principal ventaja de este enfoque es la privacidad de los datos que proporciona porque los datos no se procesan en un dispositivo centralizado. Además, los modelos de clientes locales se agregan en un servidor, lo que resulta en un modelo global que ha acumulado conocimiento de todos los diferentes clientes. Sin embargo, este enfoque es vulnerable a ataques porque los clientes pueden ser maliciosos o actores malintencionados pueden interferir en la red. En el primer caso, estos tipos de ataques pueden referirse a ataques de envenenamiento de datos o modelos donde los datos o parámetros del modelo, respectivamente, pueden ser alterados. En este documento, investigamos los ataques de envenenamiento de datos y, más específicamente, el caso de cambio de etiqueta dentro de un sistema de aprendizaje federado. Para una tarea de clasificación de imágenes, introducimos dos variantes de ataques de envenenamiento de datos, a saber, degradación del modelo y ataques de etiqueta dirigidos. Estos ataques se basan en imágenes sintéticas generadas por una red generativa adversarial (GAN). Esta red es entrenada conjuntamente por los clientes maliciosos utilizando un conjunto de datos malicioso concatenado. Debido a limitaciones de muestra del conjunto de datos, la arquitectura y el procedimiento de aprendizaje de la GAN se ajustan en consecuencia. A través de los experimentos, demostramos que estos tipos de ataques son efectivos para lograr su tarea y logran engañar a las defensas federadas comunes (sigilo). También proponemos un mecanismo para mitigar estos ataques basado en el entrenamiento de etiquetas limpias en el lado del servidor. En más detalle, vemos que el ataque de degradación del modelo provoca una degradación de precisión de hasta un 25%, mientras que las defensas comunes solo pueden aliviar esto en un porcentaje del 5%. De manera similar, el ataque de etiqueta dirigido resulta en una clasificación errónea del 56% en comparación con el 2.5% cuando no se produce ningún ataque. Además, nuestro mecanismo de defensa propuesto es capaz de mitigar estos ataques.
Descripción
El aprendizaje federado (FL) es una técnica emergente de aprendizaje automático donde los modelos de aprendizaje automático se entrenan de manera descentralizada. La principal ventaja de este enfoque es la privacidad de los datos que proporciona porque los datos no se procesan en un dispositivo centralizado. Además, los modelos de clientes locales se agregan en un servidor, lo que resulta en un modelo global que ha acumulado conocimiento de todos los diferentes clientes. Sin embargo, este enfoque es vulnerable a ataques porque los clientes pueden ser maliciosos o actores malintencionados pueden interferir en la red. En el primer caso, estos tipos de ataques pueden referirse a ataques de envenenamiento de datos o modelos donde los datos o parámetros del modelo, respectivamente, pueden ser alterados. En este documento, investigamos los ataques de envenenamiento de datos y, más específicamente, el caso de cambio de etiqueta dentro de un sistema de aprendizaje federado. Para una tarea de clasificación de imágenes, introducimos dos variantes de ataques de envenenamiento de datos, a saber, degradación del modelo y ataques de etiqueta dirigidos. Estos ataques se basan en imágenes sintéticas generadas por una red generativa adversarial (GAN). Esta red es entrenada conjuntamente por los clientes maliciosos utilizando un conjunto de datos malicioso concatenado. Debido a limitaciones de muestra del conjunto de datos, la arquitectura y el procedimiento de aprendizaje de la GAN se ajustan en consecuencia. A través de los experimentos, demostramos que estos tipos de ataques son efectivos para lograr su tarea y logran engañar a las defensas federadas comunes (sigilo). También proponemos un mecanismo para mitigar estos ataques basado en el entrenamiento de etiquetas limpias en el lado del servidor. En más detalle, vemos que el ataque de degradación del modelo provoca una degradación de precisión de hasta un 25%, mientras que las defensas comunes solo pueden aliviar esto en un porcentaje del 5%. De manera similar, el ataque de etiqueta dirigido resulta en una clasificación errónea del 56% en comparación con el 2.5% cuando no se produce ningún ataque. Además, nuestro mecanismo de defensa propuesto es capaz de mitigar estos ataques.