We use cookies to improve your experience with our site.

基于时间密度感知技术探索稠密时态子图

Discovering Cohesive Temporal Subgraphs with Temporal Density Aware Exploration

  • 摘要: 1、研究背景(context):
    将现实世界中互联数据建模成图来研究实体之间隐含的关系是大数据分析的一种重要手段。图模型有多种,如属性图、权重图等。它们所关注的图中信息不一样,其中侧重于建模关联时间信息的模型称之为时态图。从时态图中挖掘同时满足结构和时间约束的子图,是图分析的重要研究内容之一,可为好友推荐、热点追踪等应用问题提供解决方案。目前多数研究忽略了图的时间信息,仍停留在从静态图中挖掘结构紧凑的子图,忽略了子图中自然存在的时间特性,这可能导致对图中实体关系的错误理解。现有一些在时态图中挖掘稠密子图的研究存在一些问题,如由于存在性能瓶颈不能处理大规模时态图。也有部分研究所给出的子图模型约束太强不利于挖掘隐含关系模式,或模型约束太弱而返回不能与原图明显区分的较大子图。
    2、目的(Objective):
    基于以上考虑,本研究探索时态图中挖掘稠密子图的方法。为了能对时态子图的结构和时态特征进行综合评估,本研究将静态图中Density模型进行扩展, 并在计算节点平均度数时自然地组合时间间隔,定义了一个能同时捕获结构和时间特征的全新模型——TDS,并基于此模型在时态图中挖掘结构紧凑、时间紧密的稠密子图。
    3、方法(Method):
    为了搜索TDS稠密子图,一个能返回精确结果但时间开销很高的基线算法被提出来。其自然地将问题转化为在所有可能的〖|I(Γ)|〗^2个候选区间中寻找平均时态度数最大的子图。为了进一步提升算法效率,在分析了时态图时间密度分布特征并结合凸函数性质后,具有线性时间复杂度的启发式算法被提出来,其可以在线性时间内从〖|I(Γ)|〗^2个候选区间中提取性质良好的k个候选区间。基于此,辅助以新提出的剪枝算法,可以实现在线性时间内启发式地完成对TDS的搜索。
    4、结果(Result):
    为了衡量TDS模型的效率和有效性,9个公开的真实数据集被选作测试集,并于此完成与7个最先进的算法的对比实验。在效率测试中,启发式搜索策略在所有数据集上表现最好。具体地,其在大多数据集上耗时均不超过5秒,而即使是在有百万节点的DBLP上搜索时间也在2分钟之内。在有效性测试中,结合著名指标EDB和TC的得分来看,TDS具有最好的平均排名。此外,基于Rmin数据集的案例分析也表明,我们的模型能发现更有意义的隐藏关系模式,更贴合实际应用场景。
    5、结论(Conclusions):
    从有效性分析来看,在时态图中挖掘稠密子图比在静态图中挖掘稠密子图更具有现实意义,因为静态图是对实体关系的过度简化,只考虑了结构特征却没有考虑时间特征,可能造成对实体关系的错误理解。此外,模型的结构约束太强并不总是有利的,因为其在限制了子图结构特性的同时也限制了挖掘潜在关系模式的能力,而这对于推荐类任务是很重要的。TDS可以被广泛用于多种真实应用场景。例如,识别最活跃的社交群体推动广告投放和好友推荐,识别频繁且密集作用的神经元以促进对大脑神经反应机制的深入研究。基于此,未来可以探索为特定的节点进行个性化的稠密子图的搜索,从而促进TDS模型在个性化推荐场景的应用。

     

    Abstract: Real-world networks, such as social networks, cryptocurrency networks, and e-commerce networks, always have occurrence time of interactions between nodes. Such networks are typically modeled as temporal graphs. Mining cohesive subgraphs from temporal graphs is practical and essential in numerous data mining applications, since mining cohesive subgraphs gets insights into the time-varying nature of temporal graphs. However, existing studies on mining cohesive subgraphs, such as Densest-Exact and k-truss, are mainly tailored for static graphs (whose edges have no temporal information). Therefore, those cohesive subgraph models cannot indicate both the temporal and the structural characteristics of subgraphs. To this end, we explore the model of cohesive temporal subgraphs by incorporating both the evolving and the structural characteristics of temporal subgraphs. Unfortunately, the volume of time intervals in a temporal network is quadratic. As a result, the time complexity of mining temporal cohesive subgraphs is high. To efficiently address the problem, we first mine the temporal density distribution of temporal graphs. Guided by the distribution, we can safely prune many unqualified time intervals with the linear time cost. Then, the remaining time intervals where cohesive temporal subgraphs fall in are examined using the greedy search. The results of the experiments on nine real-world temporal graphs indicate that our model outperforms state-of-the-art solutions in efficiency and quality. Specifically, our model only takes less than two minutes on a million-vertex DBLP and has the highest overall average ranking in EDB and TC metrics.

     

/

返回文章
返回