利用搜索日志学习查询词模糊性模型

宋睿华; 窦志成; 洪小文; 俞 勇

doi:10.1007/s11390-010-1056-9

摘要: 　　本文研究的是一个近年来在信息检索领域备受关注的课题：有歧义的查询词。因为搜索查询词平均长度非常短，其中一些查询词是有歧义的，仅凭词本身不能够确定用户的查询意图。因此，很多研究工作希望通过个性化搜索来根据用户的历史猜测他/她的真实意图；而另一些工作则认为当查询词有歧义时，可以在排序时考虑文档的新颖度，从而增加检索结果的多样性。这些技术并非适用于所有的查询词，而是对有歧义的或者说模糊的查询词更为有效。因此，一个基本的问题出现了：计算机是否能够自动的识别有歧义的查询词呢？
　　以往工作利用搜索引擎返回的前K个结果文档的类别分布来提取有效的特征，用机器学习的方法学习到能够识别有歧义查询词的分类器。在该相关工作中，用户搜索日志并没有被使用，因为少量的日志可能会误导分类器，将有歧义的查询词判断为没有歧义。
　　本文则深入的研究了用户搜索日志，并从中抽取出有效的特征，通过机器学习的方法，得到查询词模糊性模型。具体的，本文使用了两种类型的用户日志：用户点击日志和连续输入查询词序列。在用户点击日志中，我们对点击过的文档进行了文本分类，然后，提取了一些特征来度量这些文档在类别空间上的分布。在连续输入查询词序列日志中，我们首先挖掘出相关查询词，并对这些查询词进行了文本分类，然后，提取了一些特征来度量这些查询词在类别空间上的分布。在这两个特征集合的基础上，我们采用了支持向量机来学习识别有歧义的查询词的分类器。
在以往工作使用过的数据集上，我们比较了多种方法：1）基于用户点击的特征集；2）基于查询序列的特征集；3）基于用户点击和查询序列的特征集；4）以往工作中提出的基于搜索引擎返回的前K个文档的特征集。实验结果表明，方法1和方法2的分类效果都显著低于方法3。方法3中学习得到的分类器达到86%的分类精度，略高于方法4。
　　因此，结论是仅使用点击日志或是仅使用查询序列都无法得到比以往工作更好的分类效果。但是，当我们合并两个特征集合，并进行特征选择后，分类效果可得到显著提高，甚至优于以往基于搜索返回前K个文档的方法。在未来工作中，我们希望能够尝试结合基于搜索日志和基于搜索返回文档的方法，从而达到更高的查询词覆盖率。
　　有了能够识别有歧义查询词的分类器，我们可以将它应用于个性化检索和检索结果多样化。对于有歧义的查询词，我们才选择使用这些技术来改善用户体验；而对没有歧义的查询词，简单的结果可能更受用户的欢迎。按以往的估计大约有16%的搜索查询词是有歧义的，本文的研究成果有较高的实用价值和广泛的应用前景。

Abstract: Identifying ambiguous queries is crucial to research on personalized Web search and search result diversity. Intuitively, query logs contain valuable information on how many intentions users have when issuing a query. However, previous work showed user clicks alone are misleading in judging a query as being ambiguous or not. In this paper, we address the problem of learning a query ambiguity model by using search logs. First, we propose enriching a query by mining the documents clicked by users and the relevant follow up queries in a session. Second, we use a text classifier to map the documents and the queries into predefined categories. Third, we propose extracting features from the processed data. Finally, we apply a state-of-the-art algorithm, Support Vector Machine (SVM), to learn a query ambiguity classifier. Experimental results verify that the sole use of click based features or session based features perform worse than the previous work based on top retrieved documents. When we combine the two sets of features, our proposed approach achieves the best effectiveness, specifically 86% in terms of accuracy. It significantly improves the click based method by 5.6% and the session based method by 4.6%.

利用搜索日志学习查询词模糊性模型

Learning Query Ambiguity Models by Using Search Logs