摘要:
1、研究背景(context)。 图数据模型已被广泛用于分析包括网络图、社交网络和语义网在内的大范围真实数据集。由于性能优势和快速增加的存储容量,分布式内存图处理已成为一种很有前景的图数据分析的解决方案。近年来,越来越多的分布式内存图处理平台被提出。分布式内存图处理的性能建模可以帮助执行时间预测、资源规划、性能分析和计算优化。
2、目的(Objective):准确描述该研究的目的,说明提出问题的缘由,表明研究的范围和重要性。 对分布式图计算的性能进行建模具有挑战性。显式的公式形式很难捕捉系统中多样的因素和它们复杂的交互作用。统计学习方法需要大量的训练样本来生成准确的预测模型。然而,运行所需的图计算测试以获得训练样本是非常耗时的。我们的目标是利用来自源场景的先验知识,通过可操纵数量的训练数据,对目标图计算场景的性能进行建模。
3、方法(Method):简要说明研究课题的基本设计,结论是如何得到的。 我们提出了一种用于分布式内存图处理性能建模的迁移学习方案TransGPerf,主要部件如下。基本建模:综合考虑影响分布式内存图处理性能的各种因素,在收集的大量训练样本的基础上,建立了一个源MLP模型;迁移建模:迁移网络结构在源MLP模型后增加残差层,以捕捉目标场景与源场景预测函数的差异;特征提取器:提出了一组具有代表性的特征来捕获分布式内存图处理的特性。
4、结果(Result&Findings):简要列出该研究的主要结果,有什么新发现,说明其价值和局限。叙述要具体、准确,尽量给出量化数据而不只是定性描述,并给出结果的置信值(如果有)。 实验结果表明,我们提出的方法TransGPerf能够为广泛的图计算任务产生较为准确的性能模型。它对PowerGraph和GraphX性能建模的MAPE分别达到了9.2%和7.1%,对迁移到六种具有代表性算法之一的MAPE达到了6.4-16.9%。TransGPerf的模型效果优于文献中提出的其他应用的迁移学习方法。对于PowerGraph和GraphX,MAPE分别降低了7.3-42.4%和3.88-25.69%;对于迁移到其中一种算法,MAPE最多降低了36.4%。
5、结论(Conclusions):简要地说明经验,论证取得的正确观点及理论价值或应用价值,是否还有与此有关的其它问题有待进一步研究,是否可推广应用,其应用价值如何? 图计算的性能建模是一个具有挑战性的新领域。我们提出了一种新的迁移学习方法TransGPerf,它利用分布式内存图处理源域的知识,来为具有有限样本的目标域建立性能模型。它降低了运行大量目标任务的成本。实验结果表明,TransGPerf能有效地支持广泛的分布式内存图处理迁移学习任务。