适用于有序类别的核心向量机
Ordinal-Class Core Vector Machine
-
摘要: 1.本文的创新点
在有序类别数据的分类问题(简称有序分类问题)中,训练样本一般都用等级标号标记。与回归问题相比较,有序分类问题的标记是有限种类,且标记间的差别没有明确定义;而因为标记间存在偏序关系,与标准分类问题也不相同,所以有序分类问题是机器学习中一种特殊而重要的学习问题。目前,一些文献提出了基于支持向量机的有序分类算法,例如Herbrich等人2应用结构风险最小化原则和等级对损失函数导出了排列支持向量机,然而它的算法复杂度是样本集大小的平方;为了克服这个问题,Shashua和Levin4通过最大间隔原则为有序类别数据寻找正确划分的多个平行超平面,从而推广了原有支持向量机的表示形式;Chu和Keerthi1在此基础上又提出了具有保持多个平行分类超平面有序性的支持向量机形式,这些问题表示形式都有相应的训练方法,然而对于大样本的学习仍值得作进一步的研究。
本文的第一个创新点是在有序类别问题的约简框架19下,提出了一个具有最小闭包球的对偶形式的问题表示形式,在一定条件下,该问题表示形式能保证最优解的分类界限值也具有有序性。本文的第二个创新点是基于(1+ε)近似闭包球算法,给出了上述对偶问题相应的(1+ε)近似算法,使得训练算法的时间复杂度与样本大小成线性关系,空间复杂度与样本大小无关,并且从目标函数和KKT条件角度的理论分析,说明了该算法的近似收敛性。
2.实现方法
第一个创新点:在有序分类问题的约简框架下(即将有序分类问题视为若干个二类分类问题),根据最大化间隔原则,提出了再生希尔伯特核空间下排列问题的原始表示形式,进而给出了相应的对偶问题表示形式。在某个约束条件下,该对偶形式可以视为最小闭包球问题。
第二个创新点:在将上述有序分类问题视为最小闭包球的基础上,引入(1+ε)近似闭包球算法,并将该算法扩展至有序分类问题上,实现了适用于有序类别的核心向量机算法。
3.结论及未来待解决的问题
本文基于(1+ε)近似闭包球算法,提出了适用于有序类别的核心向量机算法,它的时间复杂度与样本大小成线性关系,空间复杂度与样本大小无关,故有效地解决了有序类别数据的大样本学习问题。
本方法的预测精度和时间复杂度都与参数ε密切相关(即ε越小,时间复杂度越大,而预测越精确),故如何合理的选择参数ε,将极大地影响算法的实际表现性能。此外,本方法也可以自适应的扩展到增量式学习模型。
4.实用价值或应用前景
本方法对于有序分类问题(例如信息检索、协同过滤、机场航班延误预警等)中涉及到大样本学习的情形有着重要的应用价值。Abstract: Ordinal regression is one of the most important tasks of relation learning, and several techniques based on support vector machines (SVMs) have also been proposed for tackling it, but the scalability aspect of these approaches to handle large datasets still needs much of exploration. In this paper, we will extend the recent proposed algorithm Core Vector Machine (CVM) to the ordinal-class data, and propose a new algorithm named as Ordinal-Class Core Vector Machine (OCVM). Similar with CVM, its asymptotic time complexity is linear with the number of training samples, while the space complexity is independent with the number of training samples. We also give some analysis for OCVM, which mainly includes two parts, the first one shows that OCVM can guarantee that the biases are unique and properly ordered under some situation; the second one illustrates the approximate convergence of the solution from the viewpoints of objective function and KKT conditions. Experiments on several synthetic and real world datasets demonstrate that OCVM scales well with the size of the dataset and can achieve comparable generalization performance with existing SVM implementations.