摘要:
1.本文的创新点
在研究支持向量机(SVM)的理论与算法时,通常均假定所讨论问题的核矩阵是确定的。然而,在支持向量机的实际应用中,核矩阵往往是不确定的,这种不确定性一般来源于两方面:数据扰动和多核组合。前者指样本数据在采集、存储等过程中,产生的噪声给核矩阵带来的不确定性;后者指多核矩阵组合时,组合权重的变化给核矩阵带来的不确定性。
现有工作中,解决这类问题的方法尚不完善:处理多核组合不确定性主要采用半定规划(semi-definite programming, SDP)或半无限规划(semi-infinite linear programming, SILP)等方法,一方面计算复杂度较高,另一方面仅适用于无约束的线性组合结构;而对数据噪声不确定性的研究则尚未开展。
本文提出了求解不确定核矩阵下SVM的二阶锥规划(second-order cone programming, SOCP)方法;1. 解决了数据扰动不确定性问题;2. 提高了多核组合不确定性问题的计算效率,拓展了组合结构的适用范围。
2.实现方法
标准形式的SVM为一个凸二次规划,若以二阶锥规划求解不确定核矩阵下的SVM,关键在于目标函数与约束条件的归约与变型。
对于数据扰动不确定性,首先,在给定样本数据扰动变化范围的情况下,定义数据不确定性核矩阵集。借助S过程(S-procedure)和Schur补定理(Schur complement theorem)的结论,通过使用鲁棒优化技术进行等价变型,将具有不确定数据的SVM归约为数据确定的优化问题。归约后的问题满足二阶锥规划的形式。
对于多核组合不确定性,首先定义了三种带约束的线性组合结构:凸组合集、带多面体约束的线性组合集以及带椭球约束的线性组合集。依据三种组合集的特点,分别改写凸约束、多面体约束、椭球约束为二阶锥约束,并采用二次分式函数不等式(fractional quadratic function)约束转化技术,对目标函数进行变型、整理,使归约后的优化问题满足二阶锥规划的形式。
接着,从理论上分析了二阶锥规划方法的计算复杂性,给出其在计算效率方面优于半定规划法的理论依据。
最后,通过大量实验,在仿真数据集和标准数据集上,对比半定规划方法,验证了所提方法的性能。
3.结论及未来待解决的问题
理论研究和实验结果均表明所提二阶锥规划方法:1. 能有效解决数据扰动不确定性问题;2. 能显著提高多核组合不确定性问题的计算效率。
当然,以下问题需要在今后工作中进一步研究:1. 结合实际应用,研究其他核矩阵组合结构下,SVM的二阶锥规划形式;2. 结合SVM自身特点,设计高效的二阶锥规划求解算法,如类似于序贯最小优化(Sequential Minimal Optimization,SMO)技术的迭代算法。
4.实用价值或应用前景
支持向量机是当前机器学习、模式识别和数据挖掘等领域的重要方法。本文讨论的两种核矩阵不确定性有着广泛的实用价值和应用前景。
首先,数据扰动不可避免的普遍存在于各类实际问题中。特别对于SVM,其最终的效率和性能受核矩阵的直接影响。解决数据扰动给核矩阵带来不确定性的问题,为SVM的实际工程应用,特别是有高精度、鲁棒性要求的工程应用,提供了理论保障和技术支持。
此外,多核组合不确定性问题,是多核学习(multiple kernel learning)在实际应用中亟待解决的关键问题。传统方法一般通过半定规划求解,十分耗时,且仅适用于无约束的线性组合结构。本文提出的二阶锥规划求解方法,不仅大幅提高了此类问题的计算效率,更拓展了多核学习的应用范围。