Una estrategia eficiente de puntos de control para el aprendizaje federado en nodos heterogéneos propensos a fallos
Autores: Kim, Jeonghun; Lee, Sunggu
Idioma: Inglés
Editor: MDPI
Año: 2024
Acceso abierto
Artículo científico
2024
Una estrategia eficiente de puntos de control para el aprendizaje federado en nodos heterogéneos propensos a fallos
Categoría
Ingeniería y Tecnología
Subcategoría
Ingeniería Eléctrica y Electrónica
Palabras clave
Distribuido
Aprendizaje automático
Aprendizaje federado
Red neuronal profunda
Datos de entrenamiento
Dispositivos móviles
Licencia
CC BY-SA – Atribución – Compartir Igual
Consultas: 39
Citaciones: Sin citaciones
El aprendizaje federado (FL) es un método distribuido de aprendizaje automático en el que los nodos clientes entrenan modelos de redes neuronales profundas localmente utilizando sus propios datos de entrenamiento y luego envían ese modelo entrenado a un servidor, que luego agrega todos los modelos entrenados en un modelo entrenado global. Esto protege la información personal al permitir el aprendizaje automático con grandes cantidades de datos a través del aprendizaje paralelo. Los nodos que entrenan modelos locales suelen ser dispositivos móviles o de borde de los cuales se puede obtener fácilmente datos. Estos dispositivos suelen funcionar con baterías y utilizan comunicación inalámbrica, lo que limita su potencia, haciendo que su rendimiento informático y confiabilidad sean significativamente inferiores a los de los servidores informáticos de alto rendimiento. Por lo tanto, el entrenamiento lleva mucho tiempo y, si algo sale mal, el cliente puede tener que comenzar el entrenamiento nuevamente desde el principio. Si esto sucede con frecuencia, el entrenamiento del modelo global puede ralentizarse y el rendimiento final puede deteriorarse. En un sistema informático general, se puede utilizar un método de checkpointing para resolver este problema, pero aplicar un método de checkpointing existente a FL puede resultar en costos excesivos. Este documento propone un nuevo método de FL para situaciones con muchos nodos propensos a fallas que utiliza de manera eficiente los checkpoints.
Descripción
El aprendizaje federado (FL) es un método distribuido de aprendizaje automático en el que los nodos clientes entrenan modelos de redes neuronales profundas localmente utilizando sus propios datos de entrenamiento y luego envían ese modelo entrenado a un servidor, que luego agrega todos los modelos entrenados en un modelo entrenado global. Esto protege la información personal al permitir el aprendizaje automático con grandes cantidades de datos a través del aprendizaje paralelo. Los nodos que entrenan modelos locales suelen ser dispositivos móviles o de borde de los cuales se puede obtener fácilmente datos. Estos dispositivos suelen funcionar con baterías y utilizan comunicación inalámbrica, lo que limita su potencia, haciendo que su rendimiento informático y confiabilidad sean significativamente inferiores a los de los servidores informáticos de alto rendimiento. Por lo tanto, el entrenamiento lleva mucho tiempo y, si algo sale mal, el cliente puede tener que comenzar el entrenamiento nuevamente desde el principio. Si esto sucede con frecuencia, el entrenamiento del modelo global puede ralentizarse y el rendimiento final puede deteriorarse. En un sistema informático general, se puede utilizar un método de checkpointing para resolver este problema, pero aplicar un método de checkpointing existente a FL puede resultar en costos excesivos. Este documento propone un nuevo método de FL para situaciones con muchos nodos propensos a fallas que utiliza de manera eficiente los checkpoints.