We use cookies to improve your experience with our site.

使用句子级频繁项目集的文本分类方法

Text Classification Using Sentential Frequent Itemsets

  • 摘要: 文本分类就是自动地将自然语言文本文档根据其内容分类到预定义好的类别中去。文本分类技术的关键之一在于特征词或特征词组的选择,一篇文档的主题并不是与文档中的所有的词相关,因此如何挑选判断一篇文档中的主题词或词组作为文档的特征词或词组就成为了关键所在。而由于人类语言中一词多义现象的普遍存在,一个词的具体意思往往需要参考上下文中出现的其它词才能更准确地判断。为了解决这一问题,参考目前的数据挖掘领域的工作,提出了一个文档数据库模型,即将每一篇文档映射为一个文档数据库,文档中的每个句子看作数据库中的一个交易,每一个词看作一个项目。通过将文档映射为文档数据库,然后使用Apriori算法在文档数据库中挖掘句子级的频繁项目集。即在句子中频繁同时出现的词,并将其作为文档的特征词组。相比较于传统的文本关联规则,句子级的频繁项目集包含了更多的局部上下文信息。由于挖掘出的特征项目集可能很多,为了进一步的精简项目集,提出了一个以可变精度粗糙集模型为基础的方法对每个特征频繁项目集对分类的贡献进行评估,剪除那些对最后的分类效果贡献不大的项目集,并用精简后的项目集构造每类文档的主题模板。两篇文档共享的句子级频繁项目集为文档内容的匹配提供了重要的局部上下文信息。但是有的时候仅仅基于句子级频繁项目集的相似度判断是不够的。如果在比较待测文档和主题模板的相似度时只作基于句子级频繁项目集的比较,那么如果两个内容相关的文档没有足够多的相同的句子级频繁项目集会被判断为不相似(某种极端情况)。为了解决这个问题,取得更高的分类精度,我们将基于单个词条的相似度评估方法和基于句子级频繁项目集的相似度评估方法进行了结合。本系统中,我们采用基于TF-IDF权值的余弦相关相似度评估方法作为单个词条的相似度评估方法。使用我们提出的权值计算方法对每个待测文档和主题模板中的特征频繁项目集进行打分,并以此权值为基础在向量空间模型中计算待测文档和主题模板之间的相似度,最后达到文本分类的目的。通过在Routers-21578和20-Newsgroup上的实验表明该文本分类方法的实用性和比现有的一些分类方法更好的分类精度。

     

    Abstract: Text classification techniques mostly rely onsingle term analysis of the document data set, while more concepts,especially the specific ones, are usually conveyed by set of terms. Toachieve more accurate text classifier, more informative featureincluding frequent co-occurring words in the same sentence and theirweights are particularly important in such scenarios. In this paper, wepropose a novel approach using sentential frequent itemset, a conceptcomes from association rule mining, for text classification, whichviews a sentence rather than a document as a transaction, and uses avariable precision rough set based method to evaluate each sententialfrequent itemset's contribution to the classification. Experiments overthe Reuters and newsgroup corpus are carried out, which validate thepracticability of the proposed system.

     

/

返回文章
返回