SOOP:支持二阶随机游走的高效的分布式图计算
SOOP: Efficient Distributed Graph Computation Supporting Second-Order Random Walks
-
摘要: 1、研究背景(context)。
二阶随机游走(SOW)可有效提高图分析任务的准确性。现有工作主要侧重于集中式的SOW算法。SOW算法依赖于边到边的转移概率来生成下一个随机步。然而,对大规模图存储所有转移概率的成本高得令人望而却步。限制要考虑的概率数量可能会对图分析任务的准确性产生负面影响。
2、目的(Objective):准确描述该研究的目的,说明提出问题的缘由,表明研究的范围和重要性。
我们的目标是在大规模图上有效地支持分布式SOW算法,以便SOW算法能够使各种实际使用场景受益。
3、方法(Method):简要说明研究课题的基本设计,结论是如何得到的。
我们提出并研究了一种方法,SOOP-B,通过在随机游走过程中按需计算边到边的转移概率来避免空间开销。但当同样的边多次出现在SOW中时,相同的概率可能会被计算多次,这会为冗余的计算和通信产生额外的成本。我们提出了两种优化技术,分别是降低计算边到边转移概率的复杂性以生成下一个随机步(SOOP-T),和降低概率计算的出邻通信成本(SOOP)。
4、结果(Result&Findings):简要列出该研究的主要结果,有什么新发现,说明其价值和局限。叙述要具体、准确,尽量给出量化数据而不只是定性描述,并给出结果的置信值(如果有)。
我们在大规模真实图和合成图上,实验评估了现存的中心化的和SPARK上的解决方法、预计算的分布式实现、SOOP-B、SOOP-T和SOOP这几种方案。结果表明,SOOP可以有效地支持十亿级规模的图和节点度分布具有不同偏差的图上的SOW算法。这两个优化可以有效地改善SOOP的性能超过SOOP-B高达10.7倍。与baseline解决方案相比,SOOP实现了30-1489倍的提速。
5、结论(Conclusions):简要地说明经验,论证取得的正确观点及理论价值或应用价值,是否还有与此有关的其它问题有待进一步研究,是否可推广应用,其应用价值如何?
SOW算法非常有吸引力,因为它们可以为图分析任务达到更好的精度。我们提出并研究了一种新的解决方案,SOOP,通过在随机行走时按需计算概率来避免空间开销。我们进一步提出两种优化策略来解决冗余计算和通信的问题。SOOP可以有效地支持具有数十亿节点和边的图上的SOW计算。Abstract: The second-order random walk has recently been shown to effectively improve the accuracy in graph analysis tasks. Existing work mainly focuses on centralized second-order random walk (SOW) algorithms. SOW algorithms rely on edge-to-edge transition probabilities to generate next random steps. However, it is prohibitively costly to store all the probabilities for large-scale graphs, and restricting the number of probabilities to consider can negatively impact the accuracy of graph analysis tasks. In this paper, we propose and study an alternative approach, SOOP (second-order random walks with on-demand probability computation), that avoids the space overhead by computing the edge-to-edge transition probabilities on demand during the random walk. However, the same probabilities may be computed multiple times when the same edge appears multiple times in SOW, incurring extra cost for redundant computation and communication. We propose two optimization techniques that reduce the complexity of computing edge-to-edge transition probabilities to generate next random steps, and reduce the cost of communicating out-neighbors for the probability computation, respectively. Our experiments on real-world and synthetic graphs show that SOOP achieves orders of magnitude better performance than baseline precompute solutions, and it can efficiently computes SOW algorithms on billion-scale graphs.