Related Axis：一种提升XML查询有效性的XPath扩展方案

周军锋; 林卓旺; 鲍芝峰; 孟小峰

doi:10.1007/s11390-012-1217-0

摘要: 1．本文的创新点
(1)提出了一种新的语义——相关关系——来获取数据元素之间有意义的关系，然后通过扩展XPath语法，引入一种新的轴——related轴——在查询表达式中指定两个查询结点之间的相关关系，以此为用户提供一种有效灵活的查询机制。
(2)提出了使用实体图作为模式图的大纲，在此基础上，提出了一种延迟检测算法，用于求解给定ATP查询对应的QP查询，该算法可以避免昂贵的I/O操作并减少计算QP的代价。
(3)提出了使用部分路径索引和实体路径索引来提高查询处理的性能，并进一步证明了我们方法的高效性，即：大多数查询中昂贵的结构连接操作可以等价转换为一组简单的选择和值连接操作。
2．实现方法
由于XML文档结构的灵活性，实际使用时，用户经常面临两个挑战：（C1）由于模式信息太复杂，大部分用户无法完全掌握，（C2）被查询的XML文档可能是异构文档。这两个问题使得用户在查询复杂结构的XML文档时，无法有效获取满足自身需求的数据。
当面临C1和C2两个挑战的时候，一个好的查询机制应该同时具备“灵活性”和“有效性”。所谓有效性指在模式信息不可用的情况下，即使每个返回结果不一定符合用户的查询意图，但其所传达的信息应该是直观的、可解释的。这一要求是基于以下观察：即谈到数据之间的关系，用户仅仅关注那些有代表性的实体结点之间的关系，大多数情况下用户的查询意图都是基于实体之间的关系。灵活性指用户可以在查询表达式中随意嵌入可能的结构条件来表达自身的查询请求，系统本身不会对用户强加任何有关结构知识的要求。
对于有效性的问题，我们提出了一种新的语义——相关关系——用于在用户不了解文档结构的情况下，从给定的XML文档中发现数据结点之间有意义的关系。对于灵活性的问题，我们提出通过扩展XPath语法来将相关关系进行集成。我们的做法是引入一个新的轴——related轴——用以指定两个查询结点之间的相关关系。在我们的方法中，尽管结构信息对用户来说不是必须要掌握的，但是用户可以自由的在其查询表达式中嵌入任意结构约束信息来过滤结果。另外，扩展的XPath表达式可以无缝嵌入XQuery查询表达式来表达更复杂的语义约束，同时具有更加简洁的格式。
由于相关关系可以找到实际当中被组织为不同形式的有意义的关系，一个包含related轴的查询表达式可能对应多个不包含related轴的查询表达式，我们称前者为抽象查询树模式（Abstract Tree Pattern, ATP），称每个不包含related轴的查询表达式为查询模式（Query Pattern, QP），一个查询模式由一系列树模式（Tree Pattern or Twig Pattern, TP）查询通过引用边联系起来。为了处理一个ATP查询，需要解决如下两个问题：
P1：找到所有与给定的ATP查询对应的QP，
P2：在给定的文档中高效处理QP查询
对于P1，我们提出了使用实体图作为模式图的大纲，在此基础上，提出了一种延迟检测算法，用于求解给定ATP查询对应的QP查询，该算法可以避免昂贵的I/O操作并减少计算QP的代价。
对于P2，由于一个给定ATP查询Q可能对应多个QP，这将给后续的查询处理带来极大的挑战。我们提出了使用部分路径索引和实体路径索引来提高查询处理的性能，并进一步证明了我们方法的高效性，即：大多数查询中昂贵的结构连接操作可以等价转换为一组简单的选择和值连接操作。
3．结论及未来待解决的问题
考虑到已有的查询机制在面临复杂和异构XML数据时不能很好发挥作用的问题，我们提出了一种新的查询语义——相关关系——用于获取数据元素之间有意义的关系，进而通过提出related轴来扩展XPath语法，以便为用户提供一种机制，使得用户可以在查询表达式中指定查询结点之间的相关约束关系。针对效率问题，提出了一种高效的算法，并通过实验对方法的有效性和高效性进行了验证。

Abstract: We investigate the limitations of existing XML search methods and propose a new semantics, related relation-ship, to effectively capture meaningful relationships of data elements from XML data in the absence of structural constraints. Then we make an extension to XPath by introducing a new axis, related axis, to specify the related relationship between query nodes so as to enhance the flexibility of XPath. We propose to reduce the cost of computing the related relationship by a new schema summary that summarizes the related relationship from the original schema without any loss. Based on this schema summary, we introduce two indices to improve the performance of query processing. Our algorithm shows that the evaluation of most queries can be equivalently transformed into just a few selection and value join operations, thus avoids the costly structural join operations. The experimental results show that our method is effective and efficient in terms of comparing the effectiveness of the related relationship with existing keyword search semantics and comparing the efficiency of our evaluation methods with existing query engines.

Related Axis：一种提升XML查询有效性的XPath扩展方案

Related Axis: The Extension to XPath Towards Effective XML Search