We use cookies to improve your experience with our site.

TransGPerf:利用迁移学习建模分布式图计算性能

TransGPerf: Exploiting Transfer Learning for Modeling Distributed Graph Computation Performance

  • 摘要: 1、研究背景(context)。
    图数据模型已被广泛用于分析包括网络图、社交网络和语义网在内的大范围真实数据集。由于性能优势和快速增加的存储容量,分布式内存图处理已成为一种很有前景的图数据分析的解决方案。近年来,越来越多的分布式内存图处理平台被提出。分布式内存图处理的性能建模可以帮助执行时间预测、资源规划、性能分析和计算优化。
    2、目的(Objective):准确描述该研究的目的,说明提出问题的缘由,表明研究的范围和重要性。
    对分布式图计算的性能进行建模具有挑战性。显式的公式形式很难捕捉系统中多样的因素和它们复杂的交互作用。统计学习方法需要大量的训练样本来生成准确的预测模型。然而,运行所需的图计算测试以获得训练样本是非常耗时的。我们的目标是利用来自源场景的先验知识,通过可操纵数量的训练数据,对目标图计算场景的性能进行建模。
    3、方法(Method):简要说明研究课题的基本设计,结论是如何得到的。
    我们提出了一种用于分布式内存图处理性能建模的迁移学习方案TransGPerf,主要部件如下。基本建模:综合考虑影响分布式内存图处理性能的各种因素,在收集的大量训练样本的基础上,建立了一个源MLP模型;迁移建模:迁移网络结构在源MLP模型后增加残差层,以捕捉目标场景与源场景预测函数的差异;特征提取器:提出了一组具有代表性的特征来捕获分布式内存图处理的特性。
    4、结果(Result&Findings):简要列出该研究的主要结果,有什么新发现,说明其价值和局限。叙述要具体、准确,尽量给出量化数据而不只是定性描述,并给出结果的置信值(如果有)。
    实验结果表明,我们提出的方法TransGPerf能够为广泛的图计算任务产生较为准确的性能模型。它对PowerGraph和GraphX性能建模的MAPE分别达到了9.2%和7.1%,对迁移到六种具有代表性算法之一的MAPE达到了6.4-16.9%。TransGPerf的模型效果优于文献中提出的其他应用的迁移学习方法。对于PowerGraph和GraphX,MAPE分别降低了7.3-42.4%和3.88-25.69%;对于迁移到其中一种算法,MAPE最多降低了36.4%。
    5、结论(Conclusions):简要地说明经验,论证取得的正确观点及理论价值或应用价值,是否还有与此有关的其它问题有待进一步研究,是否可推广应用,其应用价值如何?
    图计算的性能建模是一个具有挑战性的新领域。我们提出了一种新的迁移学习方法TransGPerf,它利用分布式内存图处理源域的知识,来为具有有限样本的目标域建立性能模型。它降低了运行大量目标任务的成本。实验结果表明,TransGPerf能有效地支持广泛的分布式内存图处理迁移学习任务。

     

    Abstract: It is challenging to model the performance of distributed graph computation. Explicit formulation cannot easily capture the diversified factors and complex interactions in the system. Statistical learning methods require a large number of training samples to generate an accurate prediction model. However, it is time-consuming to run the required graph computation tests to obtain the training samples. In this paper, we propose TransGPerf, a transfer learning based solution that can exploit prior knowledge from a source scenario and utilize a manageable amount of training data for modeling the performance of a target graph computation scenario. Experimental results show that our proposed method is capable of generating accurate models for a wide range of graph computation tasks on PowerGraph and GraphX. It outperforms transfer learning methods proposed for other applications in the literature.

     

/

返回文章
返回