We use cookies to improve your experience with our site.

实体消解中分块技术的综述

A Survey on Blocking Technology of Entity Resolution

  • 摘要: 1、研究背景(context):
    当前越来越多的企业、政府以及研究机构从不同的领域收集各种描述实体的数据。然而,人们从不同数据源获取大量的实体信息在现实中可能会具有多重不同的实体描述信息的情况。因此,一项重要的研究工作就是对不同数据源中获取的实体信息进行合并和链接。实体消解(ER)可以实现识别指向现实世界中同一对象的不同实体。为了克服许多ER算法的时间复杂度高的问题,学者们提出了许多方法和技术,其中分块法是提高ER效率并确保算法结果准确性的重要方法之一。自1969年标准分块算法提出以来,出现了许多针对不同的数据结构的分块实体消解算法。本文尝试从不同角度对这些不同分支的算法进行分析、梳理和综述,对该领域的主要方法进行了详细的介绍和归纳。
    2、目的(Objective):
    本篇综述聚焦于实体消解中的分块技术,旨在以易于理解的方式,从分块构造方法和分块优化技术的角度切入,给出众多实体消解分块算法的概述、关系梳理以及优劣势分析。
    3、方法(Method):
    为了使文章的分析更加严谨,我们首先给出ER和分块技术的背景知识和相关定义。然后依据不同的分块构造方法对算法进行划分并总结。更具体地说,将算法分为基于规则的算法和基于机器学习的算法,在给出算法描述和优缺点的同时,还从算法所适用数据结构的角度对算法进行分析。接着我们从“块调优”和“比较调优”的角度切入,总结了常见的分块优化技术。最后,给出了一些有关分块ER以及部分广义ER的具有研究前景的工作。
    4、结果(Result&Findings):
    展示并分析了从经典到最近出现的分块ER算法以及分块优化技术,梳理了算法之间的关系。以表格的形式展示了各个算法的常见分类,并从算法适用的数据结构的角度给出了分析。最后,还给出了一些有关ER的具有研究前景的工作。
    5、结论(Conclusions):
    本篇综述聚焦于实体消解中的分块技术,使用易于理解的方法从多个角度展示和分析现有的ER分块算法。根据不同分块构造方法的本质特征对其进行分类,并从不同角度对其进行总结。为了使算法能够处理更复杂和更大的数据集,许多优化分块技术被提出。我们根据优化技术处理粒度的不同,将这些优化方法分为“块调优”和“比较调优”两类进行介绍和分析。最后,介绍了一些分块ER具有研究前景的工作。

     

    Abstract: Entity resolution (ER) is a significant task in data integration, which aims to detect all entity profiles that correspond to the same real-world entity. Due to its inherently quadratic complexity, blocking was proposed to ameliorate ER, and it offers an approximate solution which clusters similar entity profiles into blocks so that it suffices to perform pairwise comparisons inside each block in order to reduce the computational cost of ER. This paper presents a comprehensive survey on existing blocking technologies. We summarize and analyze all classic blocking methods with emphasis on different blocking construction and optimization techniques. We find that traditional blocking ER methods which depend on the fixed schema may not work in the context of highly heterogeneous information spaces. How to use schema information flexibly is of great significance to efficiently process data with the new features of this era. Machine learning is an important tool for ER, but end-to-end and efficient machine learning methods still need to be explored. We also sum up and provide the most promising trend for future work from the directions of real-time blocking ER, incremental blocking ER, deep learning with ER, etc.

     

/

返回文章
返回