基于二维关联边条件随机场的Web数据对象语义标注方法
2D Correlative-Chain Conditional Random Fields for Semantic Annotation of Web Objects
-
摘要: 1.本文的创新点
(1)提出一种构建Web数据元素间长距离依赖联系的方法;
(2)提出一种二维关联边条件随机场模型,对Web数据元素间的长距离依赖联系和短距离依赖联系同时建模,通过充分利用Web数据元素间的两种依赖联系,提高Web数据语义标注的准确率。
2.实现方法
首先,利用已有数据库的结构化信息及记录特征辅助确定部分数据元素的语义标签, 发现潜在的具有长距离依赖联系的数据元素;然后,产生两种类型的关联边, 建立Web数据元素间的长距离依赖联系; 最后,通过在已有经典模型(2DCRFs)的基础上添加关联边,建立二维关联边条件随机场模型(2DCC-CRFs),使2DCC-CRFs在包含对Web数据元素间短距离依赖联系建模的同时,有效地对Web数据元素间的长距离依赖联系进行建模和处理. 在2DCC-CRFs模型中, 对于三种类型特征函数(点、普通边和关联边)的参数估计, 采用最大似然估计方法;;最后使用Loopy Belief Propagation算法进行近似推理,确定每个数据元素的语义标签.
3.结论及未来待解决的问题
本文提出了一种基于二维关联边条件随机场模型的Web数据语义标注方法, 通过发现和利用Web数据元素间潜在的长距离依赖联系, 提高Web数据语义标注的准确性. 该方法首先利用已有的数据库的结构化信息及记录特征辅助部分Web数据元素确定语义标签, 产生两种类型的关联边,建立Web数据元素间的长距离依赖联系;然后, 在现有的二维条件随机场模型的基础上添加关联边,产生新的二维关联边条件场模型,使新的模型能够有效地处理Web数据元素间的长距离依赖联系. 在多个不同领域真实数据集上的试验结果表明,本文提出的方法能够有效地提高Web数据语义标注的准确性.
未来的研究工作将主要围绕如何自动地收集语义标签以及如何进一步提高Web数据语义标注的准确性而展开.
4.实用价值或应用前景
随着WWW的不断发展, Web网页中已经存放了涵盖各个领域的大量有价值的信息。Web信息集成可以有效地对Web上数据重新进行组织和整合,并进一步提供比价导购、智能问答等增值服务。Web网页中存储的数据大部分为半结构化数据,有效地从Web网页中抽取出有价值的数据并对其进行语义标注,即为抽取到的数据元素分配一个有意义的标签来表示该数据元素的语义,将为Web信息集成提供必要的数据保证,具有重要的理论价值和现实意义。
现有的大部分方法仅通过对Web网页中数据元素间的短距离依赖关系进行处理,对Web数据元素进行语义标注。但是,由于Web网页中数据的布局和组织方式多种多样,导致现有的方法对于一些Web数据元素无法进行准确地标注。调查研究表明,Web数据元素间除了存在短距离依赖联系之外,还存在着丰富的长距离依赖联系。本文针对Web数据对象语义标注问题,提出一种二维关联边条件随机场模型,充分利用Web数据元素间的短距离依赖联系和长距离依赖联系,对Web数据元素进行语义标注。通过在多个领域的真实数据集上的试验结果表明,本文提出的方法可以有效地提高Web数据元素语义标注的准确率。Abstract: Semantic annotation of Web objects is a key problem for Web information extraction. The Web contains an abundance of useful semi-structured information about real world objects, and the empirical study shows that strong two-dimensional sequence characteristics and correlative characteristics exist for Web information about objects of the same type across different Web sites. Conditional Random Fields (CRFs) are the state-of-the-art approaches taking the sequence characteristics to do better labeling. However, as the appearance of correlative characteristics between Web object elements, previous CRFs have their limitations for semantic annotation of Web objects and cannot deal with the long distance dependencies between Web object elements efficiently. To better incorporate the long distance dependencies, on one hand, this paper describes long distance dependencies by correlative edges, which are built by making good use of structured information and the characteristics of records from external databases; and on the other hand, this paper presents a two-dimensional Correlative-Chain Conditional Random Fields (2DCC-CRFs) to do semantic annotation of Web objects. This approach extends a classic model, two-dimensional Conditional Random Fields (2DCRFs), by adding correlative edges. Experimental results using a large number of real-world data collected from diverse domains show that the proposed approach can significantly improve the semantic annotation accuracy of Web objects.