We use cookies to improve your experience with our site.

基于异构信息网络分解与嵌入的社区发现方法

Finding Communities by Decomposing and Embedding Heterogeneous Information Network

  • 摘要: 社区发现是社交网络分析的一项重要任务,是数据挖掘、机器学习等领域的研究热点。探索和掌握社交网络中的社区结构不仅有利于用户推荐,同时通过挖掘其演化规律,将有利于掌握信息传播规律、发现网络群体事件、网络舆情分析预警及控制等方面。
    目前,社区发现方法可以分为:基于拓扑结构的社区发现、基于内容的社区发现和基于网络嵌入的社区发现。然而,大多数现有的社区发现方法仅依赖于社交网络的拓扑结构,而忽略了用户的个人信息和行为等内容数据。虽然有些方法同时考虑了拓扑结构和内容数据,但它们主要关注节点的内容信息,而忽略了边的内容信息。其次,虽然已提出一些基于网络嵌入的社区发现方法,但这些方法仅利用网络嵌入技术来获得网络拓扑结构的表示,而没有考虑网络所包含内容信息的嵌入表示。第三,大多数方法侧重于提高社区发现的准确性,而忽视了社区识别的效率,缺少针对社区发现结果的增量式维护。
    为此,本文提出了一种基于异构信息网络分解和嵌入的社区发现方法。与传统方法不同,该方法考虑了网络拓扑结构、节点内容信息和边内容信息,利用这些信息可以有效提高社区发现的准确度。首先,提出了一种基于网络嵌入的节点相似度评价方法,该方法先将异构信息网络分解为若干个子网络,然后针对每个子网络提取其潜在的嵌入表示,利用这些嵌入表示来评价节点之间的相似度。其次,提出了一种自底向上的社区发现算法,通过领导节点选择、初始社区生成和社区扩展,可以有效地发现社交网络中的社区。第三,针对社交网络动态变化的特点,提出了相应的增量式维护策略,提高了社区发现的处理效率。最后,本文选取三个真实的社交网络作为实验数据集,将本文方法与传统方法在社区发现的有效性和性能上分别进行了比较。实验结果表明,由于本文方法同时考虑了拓扑特征、节点内容特征和边内容特征,其NMI与模块度指标均优于传统方法。
    目前,本文将异构信息网络分解为三种子网络,针对每种子网络独立地进行训练。下一步,我们将考虑不同子网络间的相互作用,针对协同式的训练过程进行深入地研究。
    我们希望文中提到的方法和技术对于开发社群分析与社群推荐系统具有一定的参考价值。

     

    Abstract: Community discovery is an important task in social network analysis. However, most existing methods for community discovery rely on the topological structure alone. These methods ignore the rich information available in the content data. In order to solve this issue, in this paper, we present a community discovery method based on heterogeneous information network decomposition and embedding. Unlike traditional methods, our method takes into account topology, node content and edge content, which can supply abundant evidence for community discovery. First, an embedding-based similarity evaluation method is proposed, which decomposes the heterogeneous information network into several subnetworks, and extracts their potential deep representation to evaluate the similarities between nodes. Second, a bottom-up community discovery algorithm is proposed. Via leader nodes selection, initial community generation, and community expansion, communities can be found more efficiently. Third, some incremental maintenance strategies for the changes of networks are proposed. We conduct experimental studies based on three real-world social networks. Experiments demonstrate the effectiveness and the efficiency of our proposed method. Compared with the traditional methods, our method improves normalized mutual information (NMI) and the modularity by an average of 12% and 37% respectively.

     

/

返回文章
返回