融合降噪过程的群体用户多属性偏好挖掘方法
Multi-Attribute Preferences Mining Method for Group Users with the Process of Noise Reduction
-
摘要: 1、研究背景(context):
随着互联网技术的发展及移动终端的普及,信息超载问题日益突出。积极挖掘网络用户偏好,为用户提供符合其意愿和需求的个性化服务,能够达到过滤信息,有效解决信息过载的目的。
2、目的(Objective):
本文旨在研究互联网群体用户的多属性偏好挖掘方法。传统的用户偏好挖掘探究用户对项目整体的偏好程度,忽略了用户偏好产生的根本动因来源于用户对项目某些属性特征的偏好。另外,传统研究很少考虑群体用户的典型偏好组合,从而影响针对群体用户的个性化服务质量。为了解决这一问题,本文提出了一种具有降噪功能的群体用户偏好挖掘方法,该方法重点挖掘群体用户的多属性偏好倾向。群体用户偏好挖掘在互联网产品的定向推荐、产品的定向设计、生产以及特定用户群销售策略制定等方面具有重要的借鉴意义。
3、方法(Method):
本文综合考虑大规模语料集中的噪声词语对用户偏好挖掘产生的干扰作用,构建了一种新的融入了对噪声词语进行降噪处理的模型,降低用户偏好挖掘的噪声干扰。运用吉布斯采样方法,估计本文构建的降噪模型的参数。并从细粒度的用户群多属性偏好挖掘视角出发,运用该模型挖掘不同类型用户群的多属性偏好倾向。收集若干网络购物网站的客户评论数据,分别从模型的预测能力、偏好挖掘能力、偏好主题相似度这三个方面,将本研究方法与其他方法进行实验对比,以表明本文方法的优越性。
4、结果(Result&Findings):
本文研究主要从偏好预测能力、偏好挖掘能力、偏好主题相似度三个方面分析模型的性能表现。其中,偏好预测能力通过困惑度值衡量。困惑度是用来度量模型预测能力的常用指标,模型的困惑度值越小,表示该模型的预测能力和泛化能力越强,推广性越高。经过实验分析得到以下结果:第一,与其他基线模型相比,本文提出的NRM模型的困惑度值相对较低。NRM从语料主题产生的源头考虑,降低噪声词语的全局干扰,因而具有较好的预测能力。第二,通过分析模型识别的偏好主题以及不同主题下涵盖的偏好关键词,发现NRM模型识别的表示不同主题的偏好关键词更有针对性,更能体现出用户对产品不同属性特征的偏好倾向。第三,主题相似度主要衡量两个主题在词集分布上的差异性。主题相似度的衡量选择Jensen-Shannon距离。Jensen-Shannon距离的值越大,表明模型识别的两个主题差异越明显,也即说明该模型的分类效果越好。经过实验分析,发现文本提出的NRM模型可以有效提高模型对特征词的识别能力,因而具有较好的偏好主题分类效果。
5、结论(Conclusions):
本文提出了一种融入减噪过程的大规模文档集潜在偏好主题识别模型NRM,并将该模型用于用户群多属性偏好挖掘的研究。该模型设计了一种对噪声词语进行降噪处理的方法,在迭代的过程中以新的路径产生偏好主题的关键词,提高偏好主题识别的准确程度。本文构建的模型可用于大规模文本集的挖掘,有效解决文本噪声的干扰作用,丰富了文本型数据挖掘的研究思路。利用该模型对网络购物平台的用户偏好进行挖掘,可以为互联网推荐系统、互联网搜索引擎等诸多业务提供一定的参考依据。Abstract: Traditional researches on user preferences mining mainly explore the user’s overall preferences on the project, but ignore that the fundamental motivation of user preferences comes from their attitudes on some attributes of the project. In addition, traditional researches seldom consider the typical preferences combination of group users, which may have influence on the personalized service for group users. To solve this problem, a method with noise reduction for group user preferences mining is proposed, which focuses on mining the multi-attribute preference tendency of group users. Firstly, both the availability of data and the noise interference on preferences mining are considered in the algorithm design. In the process of generating group user preferences, a new path is used to generate preference keywords so as to reduce the noise interference. Secondly, the Gibbs sampling algorithm is used to estimate the parameters of the model. Finally, using the user comment data of several online shopping websites as experimental objects, the method is used to mine the multi-attribute preferences of different groups. The proposed method is compared with other methods from three aspects of predictive ability, preference mining ability and preference topic similarity. Experimental results show that the method is significantly better than other existing methods.