TransGPerf：利用迁移学习建模分布式图计算性能

doi:10.1007/s11390-021-1356-2

TransGPerf：利用迁移学习建模分布式图计算性能

TransGPerf: Exploiting Transfer Learning for Modeling Distributed Graph Computation Performance

摘要

摘要: 1、研究背景（context）。
图数据模型已被广泛用于分析包括网络图、社交网络和语义网在内的大范围真实数据集。由于性能优势和快速增加的存储容量，分布式内存图处理已成为一种很有前景的图数据分析的解决方案。近年来，越来越多的分布式内存图处理平台被提出。分布式内存图处理的性能建模可以帮助执行时间预测、资源规划、性能分析和计算优化。
2、目的（Objective）：准确描述该研究的目的,说明提出问题的缘由，表明研究的范围和重要性。
对分布式图计算的性能进行建模具有挑战性。显式的公式形式很难捕捉系统中多样的因素和它们复杂的交互作用。统计学习方法需要大量的训练样本来生成准确的预测模型。然而，运行所需的图计算测试以获得训练样本是非常耗时的。我们的目标是利用来自源场景的先验知识，通过可操纵数量的训练数据，对目标图计算场景的性能进行建模。
3、方法（Method）：简要说明研究课题的基本设计，结论是如何得到的。
我们提出了一种用于分布式内存图处理性能建模的迁移学习方案TransGPerf，主要部件如下。基本建模：综合考虑影响分布式内存图处理性能的各种因素，在收集的大量训练样本的基础上，建立了一个源MLP模型；迁移建模：迁移网络结构在源MLP模型后增加残差层，以捕捉目标场景与源场景预测函数的差异；特征提取器：提出了一组具有代表性的特征来捕获分布式内存图处理的特性。
4、结果（Result&Findings）：简要列出该研究的主要结果，有什么新发现，说明其价值和局限。叙述要具体、准确，尽量给出量化数据而不只是定性描述，并给出结果的置信值（如果有）。
实验结果表明，我们提出的方法TransGPerf能够为广泛的图计算任务产生较为准确的性能模型。它对PowerGraph和GraphX性能建模的MAPE分别达到了9.2%和7.1%，对迁移到六种具有代表性算法之一的MAPE达到了6.4-16.9%。TransGPerf的模型效果优于文献中提出的其他应用的迁移学习方法。对于PowerGraph和GraphX，MAPE分别降低了7.3-42.4%和3.88-25.69%；对于迁移到其中一种算法，MAPE最多降低了36.4%。
5、结论（Conclusions）：简要地说明经验，论证取得的正确观点及理论价值或应用价值，是否还有与此有关的其它问题有待进一步研究，是否可推广应用，其应用价值如何？
图计算的性能建模是一个具有挑战性的新领域。我们提出了一种新的迁移学习方法TransGPerf，它利用分布式内存图处理源域的知识，来为具有有限样本的目标域建立性能模型。它降低了运行大量目标任务的成本。实验结果表明，TransGPerf能有效地支持广泛的分布式内存图处理迁移学习任务。

Abstract: It is challenging to model the performance of distributed graph computation. Explicit formulation cannot easily capture the diversified factors and complex interactions in the system. Statistical learning methods require a large number of training samples to generate an accurate prediction model. However, it is time-consuming to run the required graph computation tests to obtain the training samples. In this paper, we propose TransGPerf, a transfer learning based solution that can exploit prior knowledge from a source scenario and utilize a manageable amount of training data for modeling the performance of a target graph computation scenario. Experimental results show that our proposed method is capable of generating accurate models for a wide range of graph computation tasks on PowerGraph and GraphX. It outperforms transfer learning methods proposed for other applications in the literature.

HTML全文

参考文献()

施引文献

资源附件()