一种进行商品记录聚类的新方法
A Novel Approach to Clustering Merchandise Records
-
摘要: 随着电子商务的迅速发展,电子网站购物也走入了普通网民的生活,随之业界推出了商品搜索引擎:提供商品查询的入口,快速定位出销售商品的网站名称、商品价格、性能等,方便用户进行比较购物。对于商品搜索引擎而言,面临的主要技术挑战有3个:(1)准确的收集到大量商品信息(2)识别收集到的记录属于哪个商品(对象识别)(3)判断用户的查询意图。在本文中我们对对象识别问题进行了研究,针对商品记录聚类提出了一种新的对象识别方法。对象识别在很多的研究文献中也被称为是record linkage,entity reconciliation,merge/purge等,用来判断多条记录是否指向相同的对象。例如,数据分析人员如何判断一个数据库中的“人民大学”和另外一个数据库中的“中国人民大学”指的是同一对象。目前的对象识别研究工作主要是使用基于字符(character-based)或者基于向量空间(vector space-based)的相似度度量计算两条记录的对应属性值。这些方法基于下面的一个假设:无论是由于输入错误还是其他原因,同一对象的属性值字符串可能会产生了很小的偏移,但是仍然近似相等。但是在商品的对象识别中,我们发现,同一对象的多条记录,对应属性值可能会有极大的变化,例如“Nokia N90”和“Nokia N90 Tri-Band GSM Camera Unlocked Mobile Phone”指向同一个对象。针对这样的商品名字采用基于字符或者基于向量空间的相似度计算不是一个好的方法。而且,在商品数据库中,商品还有其它特征值可以利用,包括对应的商品图片、价格等。在本文中我们提出一个新的方法进行商品的对象识别,不仅利用商品的名称进行相似度的判断,而且还有效利用商品的价格和图片。首先,我们使用对应图片进行重复图片的判断。对于图片判断的结果,提出使用价格分布特性进行纠正。对于利用图片识别的结果,结合价格我们产生大量的正例和负例。最后我们使用朴素贝叶斯分类器判断两个名字是否指向相同的商品,进行多个聚类的合并。我们的创新在于(1)我们提出了一个新的方法进行对象识别,结合使用图片,价格和名字3种特征进行对象识别(2)我们提出了一个公式可以有效的计算商品聚类的价格分布特征(3)在判断两个商品的名字是否指向同一对象时,我们利用朴素贝叶斯分类器进行判断。为了证明本文所提出方法的有效性,我们从商品网站上下载了大量的真实数据,并进行了针对性的实验。实验结果说明本文提出的新方法是有效的。Abstract: Object identification is one of the major challenges inintegrating data from multiple information sources. Since being short ofglobal identifiers, it is hard to find all records referring to the sameobject in an integrated database. Traditional object identificationtechniques tend to use character-based or vector space model-basedsimilarity computing in judging, but they cannot work well inmerchandise databases. This paper brings forward a new approach toobject identification. First, we use merchandise images to judgewhether two records belong to the same object; then, we use Na\"\i ve BayesianModel to judge whether two merchandise names have similar meaning. Wedo experiments on data downloaded from shopping websites, and theresults show good performance.