面向标题文本的一种自切换分类方法
Self-Switching Classification Framework for Titled Documents
-
摘要: 1.本文的创新点
标题文本是分为标题和内容两部分的文本。这种文本在多种互联网应用中都被广泛地使用,比如作为新闻摘要,论文摘要,论坛帖子等等。在互联网环境下,这种标题文本的分类面临一个重要的挑战。传统文本分类方法使用的是词袋模型(bag-of-words),以单词作为文档的基本特征。在特征选择阶段,传统方法借助信息熵等算法计算特征的分类价值,分类价值较低的特征就被抛弃。然而在互联网环境下,标题文本的长度有限,而且用词多为常用词汇,歧义较多,分类价值较低。如果使用传统方法建模,经过特征选择以后标题文本中剩余的特征数量较少,分类结果较差。本文的第一个创新点是介绍了一种新的标题文本建模方法,以标题-内容词汇组成的二元组来表示文本特征,并根据该方法对传统的贝叶斯分类模型进行了修改。经过半定量的分析,新的分类模型较适用于那些文本中常用词较多的文本,对其它文本分类效果可能反而下降。本文的第二个创新点是提出了一种自切换的分类方法。首先基于词袋模型和二元组模型分别训练两个分类器,对文本进行分类时,先为它选择一个合适的分类器,然后再进行分类。根据在三个真实数据集(新闻,论文,新闻组文章)上的实验,本文提出的自切换分类方法相比传统的分类方法,在分类准确率上有着明显的优势,尤其是在新闻组数据集上。除此此外,该方法在训练样本不均衡的数据集上分类效果显著。
2.实现方法
第一个创新点:二元组模型是传统词袋模型的变形,以二元组代替单词作为特征单元。虽然二元组模型有效地利用了那些分类价值较低的单词,但是特征数量比词袋模型多得多,给分类带来了很大难度。为了解决这个问题,本文采用了先聚类,再建模的方法。即首先对标题词汇集和内容词汇集分别进行聚类,然后以标题聚类和内容聚类构成的二元组作为文本的基本特征,改模型有效地降低了特征数量,同时又在一定程度上利用了分类价值较低的单词。基于新的文档模型,本文对传统贝叶斯模型的假设做了修改,提出了新的参数计算方法。新的贝叶斯模型使用二元组作为文本基本特征来进行训练和分类。
第二个创新点:基于二元组模型的分类器虽然能够利用分类价值较低的词汇,但是由于经过了聚类过程,那些分类价值较高的词汇在聚类中损失了很多。为了弥补这个损失,本文提出了自切换的分类方法。经过半定量的分析,本文提出了一个模型选择函数,给定一个选择阈值,该函数通过估计文本中分类价值较低词汇的数量,在基于词袋的分类器和基于二元组模型的分类器中进行自动选择。
3.结论及未来待解决的问题
本文提出了一种面向标题文本的自切换的分类方法。和传统方法相比,本方法能够有效利用那些分类价值较低的词汇,而不是直接将它们抛弃。本方法适用于网络环境下含大量常用词的带标题文档,如论坛帖子,新闻组文章等。对于训练样本不均衡的文本,本方法也能有效地提高分类准确率。
本方法目前使用的模型选择阈值是给定的常数,对于不同类型的文本,这种方法缺乏灵活性。此外,本方法使用的分类模型是贝叶斯模型,而没有采用目前最常用的支持向量机模型。
4.实用价值或应用前景
本方法对于互联网环境下的文本分类有着重要意义。根据本文在真实数据集上的实验,本方法在新闻组文章上相比传统方法,在分类准确率上有较大优势。Abstract: Ambiguous words refer to words that have multiple meanings such as apple, window. In text classification they are usually removed by feature reduction methods like Information Gain. Sometimes there are too many ambiguous words in the corpus, which makes throwing away all of them not a viable option, as in the case when classifying documents from the Web. In this paper we look for a method to classify Titled documents with the help of ambiguous words. Titled documents are a kind of documents that have a simple structure containing a title and an excerpt. News, messages, and paper abstracts with titles are examples of titled documents. Instead of introducing another feature reduction method, we describe a framework to make the best use of ambiguous words in the titled documents. The framework improves the performance of a traditional bag-of-words classifier with the help of a bag-of-word-pairs classifier. The framework is implemented using one of the most popular classifiers, Multinomial NaiveBayes (MNB) as an example. The experiments with three real life datasets show that in our framework the MNB model performs much better than traditional MNB classifier and a naive weighted algorithm, which simply puts more weight on words in the title.