摘要:
1. 动机和创新(Motivation and innovation)
由于网络环境的开放性和欺骗性等特征,使得Web服务交易双方风险增大,导致获取高质量的Web服务难以保证,因而,为降低服务交易风险,在Web服务环境中构建高效和规范的声誉评估机制是十分必要的。
目前,有关Web服务声誉评估方面的研究还比较少。它们主要从安全性角度出发衡量实体的声誉度,例如采用基于PKI的CA机制。该机制只能保证提供商所提供信息的真实性和完整性,而不能保证其所提供信息的内在质量。例如,该机制并不能保证提供商所发布的服务描述信息与其实际所提供的服务功能一致。
在其它分布式系统中,例如网格或P2P网络,主要利用反馈信息(如用户评论)评估实体声誉。但是,由于反馈信息的质量问题经常导致这种方法的评估准确度受到极大影响。其中,反馈信息的质量问题主要包括:(1)虚假反馈信息问题,以及(2)被评估者拥有的反馈信息量也常常不均衡,有些被评估者甚至没有反馈信息,等等。
与传统消费者不同的是,服务消费者通常不能直接接触或尝试服务,而仅能利用各种网络信息间接地了解服务的好坏。如图1所示,这些网络信息通常包括:(1)提供商发布的信息:指提供商向UDDI注册器发布服务时提交的服务注册信息,它主要包括服务的基本功能描述信息和QoS信息等;(2)用户评论:通常,用户通过可共享的在线服务评价渠道,对所消费服务提供点评,这些点评主要包括用户的消费经验,个人感受,评估意见以及使用满意度等。
与提供商发布的信息相比,用户评论的主要不同之处包括:(1)用户评论比提供商发布的信息更加真实可靠。通常,提供商在它的服务注册信息中会尽力掩饰自己的不足,强调自身的优势;相反,消费者会从消费的实际情况出发,更客观和更全面地评价所消费服务的各种优缺点。(2)用户评论比提供商发布的信息更加针对消费者。通常,提供商发布信息的对象是所有消费者,而并不针对某个特定的消费者,因此其更加侧重对服务产品本身特性的描述。与此相比,用户评论是从特定消费者的角度出发评价服务的优劣,因此其更加侧重消费者本身。从(1)和(2)两点可以看出,用户评论比提供商发布的信息更加适合作为服务声誉评估的依据。但是,(3)与提供商发布的信息相比,用户评论的质量通常难以保证。当前用户评论并没有标准格式,内容长短不一,质量参差不齐,并且不可避免包含评价者的主观和感情因素。此外,由于恶意行为的干扰,用户评论中可能还会掺杂一些不真实甚至恶意的评价信息。这些因素都严重地影响了评论的质量,进而极大地制约了它在声誉评估中的作用。
因而,我们重点提出一种基于多属性的用户评论的质量评估方法。然后,在此基础上重新计算服务的声誉度。实验结果表明,与基于未进行任何质量筛选的用户评论的方法相比,本文方法有效地改善了现有声誉评估的效果。
2. 实现方法简介(Sketch of method (including experimental environment and results))
下面,首先从评论的充实性和时效性角度出发,给出用户评论的质量评估方法;然后,从服务角度出发,计算其评论(经过充实性和时效性评估的评论)的真实概率;最后,在此基础上,计算出服务的声誉度。
2.1 基于充实性和时效性的用户评论的质量评估方法
针对任意一条用户评论,主要从以下角度评估其质量:(1)充实性(enrichment):用来衡量用户评论所含信息量的大小。从直觉上看,若一个评论所含的信息量越多,则它的质量可能会越高;反之,则相反。该项评估指标是:评论长度和评估意见(opinion)数目。(2)时效性(temporality):是指评论的效用性依赖于时间变化,即具有时间衰减特性。换句话说,评论的质量随着时间的流逝会越来越低。该项利用一个指数函数( )实现。
2.2 服务评论的真实性评估
真实性(credibility):用来衡量服务评论的真实概率。在本文中,评论的真实性衡量是从服务角度考虑,即把一个服务的所有评论看作一个整体去讨论,而并不是针对某个特定的评论。借鉴委托-代理人理论,我们设计了一个服务管理者和评论者模型(the service manager-reviewer model)去计算服务评论的真实概率α,即1-α表示服务评论中的虚假评论比例。
2.3 声誉评估方法
针对任意一个服务( ),它的评论包括两部分,即真实评论部分和虚假评论部分。并且,我们把这两种评论作为服务声誉度评估的依据,即一个服务的声誉度=真实评论的作用+虚假评论的作用,进而可以推导出真实评论的作用。
2.4 实验
一、实验环境
实验目的:分别测试各个评论质量属性(即充实性,时效性和真实性)对声誉评估的影响程度。
实验数据:以携程网的酒店点评数据作为测试数据。
二、实验方法
1. 把网站的推荐结果作为服务声誉评估的测试标准。
2. 假定所有入住客户是否会点评服务的概率相同,且该网站规定只有住过酒店的客户才有权点评服务,则可以得出“点评数”正比于酒店的入住数。
3. 针对充实性、时效性和真实性分别进行测试,每种情况做五组实验,最终结果为五组实验的平均结果。
三、实验结果
1.充实性评估
为描述上的方便,我们把基于原始评论的方法称为NRM方法,而ERM是一种在充实性基础上改进的NRM方法。如图3所示,与NRM方法相比, ERM方法的平均查准率(p)有了提升(2.62%),尤其是在top 10之前的效果更加明显(3.3%)。由于一般网络用户仅对排名在前几项的信息比较感兴趣,因此,针对该检索习惯,本文方法对查准率的改善效果更加突出。类似地,与NRM方法相比,ERM方法的平均查全率(r)也有了提升(10.4%),而在top 10之前的效果稍微差些(7.9%)。
2.时效性评估
TRM方法是一种时效性增强的ERM方法。换句话说, ERM方法本身没有考虑时效性,即它中隐含了δ=0的条件。如图4所示,与ERM方法相比, TRM(δ>0,即考虑了时效性特征) 的平均查准率有了提升(4.17%),尤其是TRM(δ=1)方法的效果更明显(4.33%)。类似地, TRM方法的平均查全率也有了提升(4.3%),且TRM在δ=1的时候效果稍微好些 (4.37%)。
3.真实性评估
CRM方法是一种真实性增强的TRM方法。换句话说,TRM方法没有考虑真实性,即它中隐含了α=1的条件。如图5所示,与TRM(δ=1,α=1 )方法相比,CRM (δ=1, α=0.8)方法在平均查准率和查全率上分别得到了提升(3.89% 和 3.7%),尤其是在top 10之前它们分别被提升了11.7% 和 11.1%。
如图6所示,在α=0.8时平均查准率和查全率的改善效果最好。并且,在参数α的不同取值下,平均查准率间的最大差异为0.93%,平均查全率间的最大差异为2.22%。因而,我们可以得出选择适当的参数α能够有效地改善声誉评估的性能。
4. 总结
与NRM方法相比, 所有改进方法(ERM, TRM 和 CRM) 都取得了较满意的结果,如图5所示。
3. 结论(Conclusion)
本文设计了一种基于用户评论质量的Web服务声誉度计算方法。该方法首先分别从评论的充实性,时效性和真实性角度出发,综合地度量了评论的质量。然后,在此基础上,借助筛选出高质量的用户评论评估服务的声誉度。
4. 创新和意义(Contributions and significance)
目前,在实体声誉评估领域中,现有研究很少考虑评论的质量问题,它们大多假定:用户评论总是真实和客观的。但是,当前评论中主观、空洞、虚假、恶意甚至与主题毫不相关的成分已严重影响了声誉评估的效果。针对这个问题,本文的主要创新之处是提出了一种有效的用户评论的质量评估方法。并且,该方法对改善现有声誉评估的效果非常显著。