Zenops: un sistema de aprendizaje distribuido que integra eficiencia de comunicación y seguridad
Autores: Xie, Cong; Koyejo, Oluwasanmi; Gupta, Indranil
Idioma: Inglés
Editor: MDPI
Año: 2022
Acceso abierto
Artículo científico
2022
Zenops: un sistema de aprendizaje distribuido que integra eficiencia de comunicación y seguridad
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería de Software
Palabras clave
Aprendizaje automático
Distribuido
Comunicación
Entrenamiento
Seguridad
Descenso de gradiente estocástico
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 33
Citaciones: Sin citaciones
El aprendizaje automático distribuido está principalmente motivado por la promesa de un mayor poder de cálculo para acelerar el entrenamiento y mitigar las preocupaciones de privacidad. A diferencia del aprendizaje automático en un solo dispositivo, el aprendizaje automático distribuido requiere colaboración y comunicación entre los dispositivos. Esto crea varios desafíos nuevos: (1) la sobrecarga de comunicación puede ser un cuello de botella que ralentiza el entrenamiento, y (2) la comunicación poco fiable y un control más débil sobre las entidades remotas hacen que el sistema distribuido sea vulnerable a fallos sistemáticos y ataques maliciosos. Este documento presenta una variante del descenso de gradiente estocástico (SGD) con una eficiencia de comunicación y seguridad mejoradas en entornos distribuidos. Nuestras contribuciones incluyen (1) una nueva técnica llamada para adaptar tanto la sincronización infrecuente como la compresión de mensajes para reducir la comunicación tanto en el entrenamiento síncrono como asíncrono, (2) nuevos enfoques para validar las actualizaciones, y (3) integración tanto con el reinicio de errores como con la validación basada en puntajes. El sistema propuesto proporciona reducción de la comunicación, tanto entrenamiento síncrono como asíncrono, tolerancia bizantina y preservación de la privacidad local. Evaluamos nuestras técnicas tanto teórica como empíricamente.
Descripción
El aprendizaje automático distribuido está principalmente motivado por la promesa de un mayor poder de cálculo para acelerar el entrenamiento y mitigar las preocupaciones de privacidad. A diferencia del aprendizaje automático en un solo dispositivo, el aprendizaje automático distribuido requiere colaboración y comunicación entre los dispositivos. Esto crea varios desafíos nuevos: (1) la sobrecarga de comunicación puede ser un cuello de botella que ralentiza el entrenamiento, y (2) la comunicación poco fiable y un control más débil sobre las entidades remotas hacen que el sistema distribuido sea vulnerable a fallos sistemáticos y ataques maliciosos. Este documento presenta una variante del descenso de gradiente estocástico (SGD) con una eficiencia de comunicación y seguridad mejoradas en entornos distribuidos. Nuestras contribuciones incluyen (1) una nueva técnica llamada para adaptar tanto la sincronización infrecuente como la compresión de mensajes para reducir la comunicación tanto en el entrenamiento síncrono como asíncrono, (2) nuevos enfoques para validar las actualizaciones, y (3) integración tanto con el reinicio de errores como con la validación basada en puntajes. El sistema propuesto proporciona reducción de la comunicación, tanto entrenamiento síncrono como asíncrono, tolerancia bizantina y preservación de la privacidad local. Evaluamos nuestras técnicas tanto teórica como empíricamente.