We use cookies to improve your experience with our site.

语义网中词汇的全局摘要

Summarizing Vocabularies in the Global Semantic Web

  • 摘要: 知识工作者在语义网中通过定义和共享词汇来描述互相关联的数据,并将这些数据用于科学研究、工业生产甚至日常生活之中。随着语义网的不断发展,可用的词汇数量越来越多。在选择并重用这些词汇的过程中,用户需要一种能够帮助他们快似理解词汇的方法。在信息检索研究领域,文本摘要技术被广泛地应用于与文本理解相关的场景。文本摘要相对于其他技术的优点在于:简单、快速,且文本信息易于存储与传输。这促使我们研究词汇摘要这一新技术。与文本摘要技术不同的是,词汇摘要技术需要处理使用RDF(S)或OWL语法撰写的词汇,而不是纯文本。词汇是由术语和定义术语的RDF句子构成。我们的主要研究课题是如何从词汇中抽取出重要的RDF句子作为词汇的摘要。本文的贡献在于:首先,我们提出了词汇的本地二部图模型用于刻画词汇的内部结构,并以本地二部图模型出发,通过词汇间术语的引用定义了扩展二部图模型。扩展范围越广,模型中包含的“邻居”信息就越多,越能体现一个词汇在语义网全局中被重用的情况。扩展二部图模型是对词汇进行链接分析,进而找出重要RDF句子的基础;其次,我们提出了通过术语实例化信息的统计来计算RDF句子“语用”重要性的方法。对“语用”信息的统计与分析是RDF句子重要性计算中的重要一环,是对链接分析方法的有效补充。我们将以上摘要方法称为词汇的全局摘要,因为摘要过程中使用到了语义网中的全局信息,而非针对单个词汇文档的摘要。与此相对的,我们将针对单个词汇文档的摘要称为本地摘要。实验表明,由于使用了扩展二部图模型并考虑了RDF句子的语用信息,全局摘要的质量比本地摘要有所提高。我们还将词汇摘要技术与其他在形式或功能上类似的技术进行了比较,结果显示词汇摘要技术在辅助用户理解词汇的任务中具有一定的优势。未来的工作我们将着重于以下几点:首先,我们将研究如何使得词汇摘要技术更为通用,不仅可以摘要概念层的词汇,还可以用于摘要更一般的实例层数据;其次,我们将对提供语义网数据的站点进行分析,主要分析站点的权威性、可信度以及包含语义网数据的丰富程度等等。对一个站点的分析结果将影响到该站点提供的RDF句子的重要性计算,从而影响词汇摘要的策略。和文本摘要技术类似,词汇摘要将广泛应用于语义搜索引擎。在用户检索到一个词汇的时候,语义搜索引擎可以使用词汇摘要技术向用户呈现词汇的精简版本以帮助用户实现快速的理解。我们相信,词汇摘要将成为语义搜索引擎提供的基本服务之一,会对词汇的理解,及进一步的词汇重用带来极大的促进。

     

    Abstract: In the Semantic Web, vocabularies are defined andshared among knowledge workers to describe linked data for scientific,industrial or daily life usage. With the rapid growth of onlinevocabularies, there is an emergent need for approaches helping usersunderstand vocabularies quickly. In this paper, we study thesummarization of vocabularies to help users understand vocabularies.Vocabulary summarization is based on the structural analysis andpragmatics statistics in the global Semantic Web. Local BipartiteModel and Expanded Bipartite Model of a vocabulary are proposed tocharacterize the structure in a vocabulary and links betweenvocabularies. A structural importance for each RDF sentence in thevocabulary is assessed using link analysis. Meanwhile, pragmaticsimportance of each RDF sentence is assessed using the statistics ofinstantiation of its terms in the Semantic Web. Summaries are producedby extracting important RDF sentences in vocabularies under are-ranking strategy. Preliminary experiments show that it is feasibleto help users understand a vocabulary through its summary.

     

/

返回文章
返回