边缘云中多模型联邦学习的联合参与者选择和学习优化
Joint Participant Selection and Learning Optimization for Federated Learning of Multiple Models in Edge Cloud
-
摘要:研究背景 为了克服云计算带来的长延迟和隐私问题的局限性,边缘计算以及联邦学习(FL)等分布式机器学习在学术界和工业界得到了广泛关注和普及。大多数关于边缘联邦学习的现有工作主要集中在优化边缘系统中一个共享全局模型的训练。然而,随着FL在边缘系统中的应用越来越多,可能会有来自不同应用程序的多个FL模型同时在共享边缘云中进行训练。这些FL模型的并发训练会导致边缘资源的竞争问题(如计算资源和网络资源),并进一步影响彼此的FL训练性能。目的 在这项工作中,我们主要研究共享边缘云上多模型联邦学习中的联合参与者选择和学习优化问题。在动态变化的边缘网络环境中,我们的目标是为每个FL模型找到一个参数服务器(PS)和多个FL worker,并确定FL worker的局部收敛率以最小化所有FL模型的总训练成本。通过允许不同的FL模型选择自己的PS,与传统的FL解决方案(所有模型都采用集中式PS)相比,本文提出的算法可以更好地处理模型之间的资源竞争并为边缘云中提供合适的负载平衡。方法 我们首先将联合参与者选择和学习优化问题定义成一个联合优化问题,该问题的性质是一个典型的混合整数非线性规划(MINLP)问题。为了解决该优化问题,我们将原始优化问题解耦为两个或三个子问题,然后提出了三种不同的算法(即三阶段优化算法,三阶段贪心算法以及二阶段优化算法),通过迭代解决子问题,我们可以有效地为每个FL模型找到合适的参与者和学习率,以最小化所有模型的总训练成本。此外,我们在算法中也进一步考虑了在资源有限和异构边缘场景下,所有FL模型优先处理顺序对总训练成本的影响。结果 与现有的算法相比,不管在不同的边缘服务器数量、FL模型数量或FL worker数量情况下,我们提出的算法都可以有效的降低所有FL模型的训练成本。此外,让模型大小更大的FL模型先选择参与者可以进一步降低总训练成本。本文提出的算法也应用在真实的FL训练过程,结果显示,随着FL worker数量的增加,本文算法选择的参与者可以让FL模型获得更高的精确度。结论 在本文中,我们主要研究了边缘云上的多模型联邦学习,并通过考虑边缘服务器的资源限制和异构性以及不同的数据分布,为每个模型选择合适的参与者(PS和FL Worker)。我们提出了三种不同的算法来将原始问题分解为多阶段,以便每个阶段都可以通过优化求解器或贪心算法来解决。通过真实FL实验运行的结果表明,我们提出的算法优于类似的现有解决方案。针对未来可行的研究计划包括如下几个方面:(1)结合强化学习(RL)的技术在更动态的边缘系统中解决类似的优化问题;(2)定义新的联合优化问题,其中不同的FL模型可以选择不同的FL训练拓扑结构,例如分布式联邦学习(DFL)或分层联邦学习(HFL);(3)研究类似的联合优化问题,但研究场景可能是具有多个边缘运营商的更复杂的边缘系统。Abstract: To overcome the limitations of long latency and privacy concerns from cloud computing, edge computing along with distributed machine learning such as federated learning (FL), has gained much attention and popularity in academia and industry. Most existing work on FL over the edge mainly focuses on optimizing the training of one shared global model in edge systems. However, with the increasing applications of FL in edge systems, there could be multiple FL models from different applications concurrently being trained in the shared edge cloud. Such concurrent training of these FL models can lead to edge resource competition (for both computing and network resources), and further affect the FL training performance of each other. Therefore, in this paper, considering a multi-model FL scenario, we formulate a joint participant selection and learning optimization problem in a shared edge cloud. This joint optimization aims to determine FL participants and the learning schedule for each FL model such that the total training cost of all FL models in the edge cloud is minimized. We propose a multi-stage optimization framework by decoupling the original problem into two or three subproblems that can be solved respectively and iteratively. Extensive evaluation has been conducted with real-world FL datasets and models. The results have shown that our proposed algorithms can reduce the total cost efficiently compared with prior algorithms.