为可伸缩的三元组存储构建分布式体系结构

周菁

摘要: 1．本文的创新点
目前大部分的RDF（Resource Description Framework）三元组存储（triple store）是集中式的：数据管理集中于某一个地方。这种集中式的三元组存储通过在一个单独的存储中支持容纳更多的三元组来实现可伸缩性。当三元组数量达到一定程度时（比方说100M以上），这种方法难以产生令人满意的系统性能。目前这种三元组存储的集中特性严重地限制了数据和数据管理的分布程度，容易形成系统性能和资源瓶颈。
本文描述的研究工作主要是提供可伸缩性技术来去除现有的大规模三元组存储中的资源与性能瓶颈，同时也为联合现有的独立三元组存储提供帮助，以期达到理想的可伸缩性。我们的工作主要是开发并有机地融合了以下几种技术：在一个完全分散式的对等体系结构中将大规模的三元组存储拆分成多个RDF数据文件，允许三元组所有者各自维护自己的RDF数据文件；利用基于本体（ontology）的匹配模式来查找需要的资源；使用基于语义的搜索协议来有效地对查询消息进行路由；以及运用拓扑重组来进一步增强系统性能。
2．实现方法
我们提议在大规模的RDF数据管理系统中使用非结构化的对等计算体系结构，因此系统中不存在集中式的控制：将所有的RDF三元组分配给各个对等点，在每个对等点处将RDF三元组根据三元组的主体（subject）分配到多个RDF数据文件中去，每个对等点仅负责维护和公布他们愿意和其它对等点分享的三元组（亦即RDF数据文件）。存放在RDF数据文件中的三元组仅在需要时载入三元组存储中。查找RDF数据文件是依靠基于语义的搜索协议来完成，该协议利用相邻对等点所拥有的数据文件之间的语义关系来传送查询消息。此外，我们运用了拓扑重组技术，通过局部地改变对等点的邻居来获取理想的、全局的搜索性能。
3．结论及未来待解决的问题
基于试验结果我们可以得出以下结论：与multiple random walk、constrained flooding和interest-based locality等成熟的方法相比，我们的研究成果能够提供更好的系统可伸缩性，同时产生最小的系统负载。
因为需要解决的问题中涉及的三元组存储的规模非常之大，所以目前尚未在实际的RDF三元组存储中验证我们方法的有效性。在今后的工作中，我们需要将这些技术运用到相关的项目中去。我们希望证实，利用三元组的主体来划分和组织大规模的三元组存储可以为组织和描述RDF数据文件提供合适的粒度，另外，利用语义意识（semantics-awareness）可以使得现有的三元组存储具有更好的可伸缩性。
4．实用价值或应用前景
语义网络是万维网的延伸，它主要是通过赋予信息明确的定义来方便人们查找、共享和集成信息。这种信息的定义使用RDF以及OWL（Web Ontology Language）来表示。我们的研究成果提供了快捷的、可伸缩的、可靠的方法来有效地管理、维护和查询数目庞大的RDF三元组，为语义网络能够真正应用到现实生活提供了重要的技术支撑。我们所研究和开发的一整套技术方案，不仅仅对解决实现语义网络中的相关问题有借鉴意义，而且具有重要的实际应用价值和广泛的应用前景。

Abstract: Built specifically for the Semantic Web, triple stores are required to accommodate a large number of RDF triples and remain primarily centralized. As triple stores grow and evolve with time, there is a demanding need for scalable techniques to remove resource and performance bottlenecks in such systems. To this end, we propose a fully decentralized peer-to-peer architecture for large scale triple stores in which triples are maintained by individual stakeholders, and a semantics-directed search protocol, mediated by topology reorganization, for locating triples of interest. We test our design through simulations and the results show anticipated improvements over existing techniques for distributed triple stores. In addition to engineering future large scale triple stores, our work will in particular benefit the federation of stand-alone triple stores of today to achieve desired scalability.

为可伸缩的三元组存储构建分布式体系结构

Building a Distributed Infrastructure for Scalable Triple Stores