We use cookies to improve your experience with our site.

跨异构信息网络的深度实体匹配

DEM: Deep Entity Matching Across Heterogeneous Information Networks

  • 摘要: 1.研究背景
    信息网络关注对象与对象之间的交互,是现实世界的抽象。这一层次的抽象既具有表达和存储现实世界本质信息的强大能力,同时通过运用链接的信息,为现实世界挖掘知识提供了一个有用的工具。当今互联网平台上的海量数据多呈现碎片化特征,这些数据包含着不同的属性,且相互关联,构成了一张张由不同类型节点以及表达不同关系的边所组成的异构信息网络。因此,在数据碎片化的大趋势下,只有匹配、关联和拼接碎片化的数据才能真正体现互联网平台作为“社会传感器”的作用。
    当前,设计一种有效地拼接这些碎片化数据的方法即实体匹配方法已然成为学术界和工业界共同关注的问题。实体匹配技术旨在从不同数据源中发现相同的实体,这正是数据清洗、数据挖掘等领域的关键问题。关于这一问题的研究甚至可以追溯到上世纪40年代,经过漫长的发展,实体匹配技术已广泛应用于数据集成、知识获取以及用户画像等领域。异构信息网络中的节点和边呈现出种类多、关联强、语义缺等特点。因此,如何准确、高效地匹配这些碎片化数据,进一步实现这些碎片化数据的价值是亟待解决的问题,本文正是为了应对这一挑战而提出的。传统的实体匹配方法仅致力于从用户产生的文本信息中抽取特征,而忽视了这些属性信息之间的网络结构关联,难以达到更好的匹配效果。此外,在面对大规模网络时也存在计算瓶颈。因此,本文基于深度学习的方法,提出一种新型的跨异构信息网络的实体匹配算法:结合高速公路网络和多层感知器挖掘更多的异构信息网络中的隐含关系,从而提升匹配性能;此外,通过网络嵌入方法将对象表示成稠密、实值、低维的向量,以向量化的方式高效地运算,从而提升算法执行效率。
    2.研究目的
    本文致力于设计一种基于深度学习方法的跨异构信息网络的实体匹配算法,利用网络结构信息捕捉不同实体间的丰富的隐含关系,并结合已有的语义信息发现不同数据源中相同的实体或对象。
    3.研究方法
    本文提出了一种基于深度学习方法的跨异构信息网络的实体匹配算法:Deep Entity Matching(DEM)。该方法分为三步:(1)构建异构信息网络,将每一条记录中的属性作为一个节点,建立不同属性间的关系,构建(起点,关系,终点)的三元组;(2)利用网络嵌入方法得到不同网络中每个节点的嵌入向量;(3)对不同属性的节点进行分块处理,计算同一属性下节点的相似向量,随后作为多层感知器的输入,得到最终的“匹配”或“不匹配”的实体集。
    4.实验结果
    本文利用了四个真实的数据集,进行了用户链接以及实体链接两组实验,并对比了四种已有的常规机器学习方法和两个先进的深度学习方法,利用F1指标证明了DEM方法的优越性。此外,通过削减数据集规模以及模型简化测试,证明了实验的可扩展性以及多层感知器模型在DEM方法中的重要性。
    5.研究结论
    实验结果表明了通过网络嵌入获取结构信息并利用多层感知器作为分类器的深度学习方法对实体匹配的性能有着明显的提升。证明了利用记录中的属性构建异构信息网络的方法是行之有效的,利用网络结构信息为实体匹配任务提供了帮助。此外,我们还设想是否可以通过迁移学习的方法减少所需要的标注数据,提高DEM的效率。

     

    Abstract: Heterogeneous information networks, which consist of multi-typed vertices representing objects and multi-typed edges representing relations between objects, are ubiquitous in the real world. In this paper, we study the problem of entity matching for heterogeneous information networks based on distributed network embedding and multi-layer perceptron with a highway network, and we propose a new method named DEM short for Deep Entity Matching. In contrast to the traditional entity matching methods, DEM utilizes the multi-layer perceptron with a highway network to explore the hidden relations to improve the performance of matching. Importantly, we incorporate DEM with the network embedding methodology, enabling highly efficient computing in a vectorized manner. DEM's generic modeling of both the network structure and the entity attributes enables it to model various heterogeneous information networks flexibly. To illustrate its functionality, we apply the DEM algorithm to two real-world entity matching applications:user linkage under the social network analysis scenario that predicts the same or matched users in different social platforms and record linkage that predicts the same or matched records in different citation networks. Extensive experiments on real-world datasets demonstrate DEM's effectiveness and rationality.

     

/

返回文章
返回