We use cookies to improve your experience with our site.

基于凸分解的支持向量聚类簇标识方法

Convex Decomposition Based Cluster Labeling Method for Support Vector Clustering

  • 摘要: 1.本文的创新点
    目前,对支持向量聚类模型的改进主要集中在优化簇标识(Cluster labeling)算法,而经典的簇标识算法具有较大的时间复杂度O(mN2),其中N为样本数,m为抽样率。为优化簇标识算法,现有的研究全都定位于减少需要抽样的样本点对,即通过降低 值来提高效率。但结果是虽然需要抽样的样本点对减少了,但却让支持向量聚类算法要么失去了处理任意形状(轮廓)数据集的优势,并导致准确率大幅下降,要么使得为寻找能替代或代表N个样本的簇原型或转换点而花费更大量的时间,效率反而降低了。本文的创新点在于:
    (1)论证了在特征空间中的支持向量集可以构造一个超凸多面体,在对其进行凸分解后能得到一个与数据实际簇分布直接相关的唯一划分。将该超凸多面体的划分映射回原始数据空间之后将会得到轮廓不规则、可代表簇的凸包集合,其大小通常远小于N值的NCH(<<N) ;
    (2)定义了准支持向量,并证明了其对描绘簇轮廓和判定簇连接性的影响,然后提出一种只需要在近邻凸包之间采样两个点对,并具有非线性抽样序列的簇相连判断方法。该方法可以使得凸包之间的抽样率m平均取值降到2次以内,仅为一般传统方法的1/2~1/11。
    两部分的结合,使得算法既保留了支持向量聚类对不规则簇轮廓支持的优势,有大大降低了m,N,保证了较高的时间效率。
    2.实现方法
    本文算法的实现步骤简要描述如下:
    (1)输入带聚类的数据集,使用高斯核函数将其映射到特征空间中,求解凸优化问题后得到支持向量集合V
    (2)在特征空间中,支持向量点集位于超球面的表面并可构造一个超凸多面体。由于每个样本点与超球面中心的距离不同,则本文使用支持向量点作为初始点,通过迭代的方法找到距离超球面中心的最近位置。如果两个支持向量点最终迭代到同一个距离超球面中心最近点,则将二者归为一个支持向量集合。如此,便得到对超凸多面体的唯一划分;
    (3)利用高斯核函数做逆向映射,将得到的超凸多面体划分映射会原始数据空间,将得到相同个数的凸包集合,利用每个凸包来代表将做连接判断的簇;
    (4)由于两个凸包之间有可能存在一定数量的准支持向量点,它们将直接影响连接性判断。为此,本文算法在两个近邻凸包之间各选择两个顶点,构成两个点对(共4顶点)。让两个点对之间构造线段,并确保穿过准支持向量点最为密集的区域;
    (5)采用非线性的抽样序列生成算法,根据生成的序列标识抽样(4)中两根线段上的对应点,判断其与超球面中心的距离是否大于超球面半径R。如果大于R,则表明两个凸包之间不相连,反之则认为相连。
    (6)利用步骤(5)得到包含凸包连接关系的邻接矩阵A,确定每个凸包的标号;
    (7)将整个数据集中的其余样本标号为离自己最近的凸包的标号。
    3.结论及未来待解决的问题
    本文通过同时降低抽样点对和抽样率来提高支持向量聚类算法的时间效率,并保留了对不规则簇支持的优势,在提升算法效率的同时保证了极高的聚类准确率。与主流的8种算法的对比实验证实了本文算法不仅在准确率和时间消耗上有明显的优势,并且降低了算法对参数的依赖性。在下一个阶段,作者将研究通过减少样本点的方式来快速构造超球面、超凸多面体,在支持向量聚类算法模型中的第一环节(求解凸优化问题)上提高效率,然后配合本文的算法,更进一步提高支持向量聚类算法的性能。
    4.实用价值或应用前景
    由于支持向量聚类算法在处理不规则轮廓的簇时具有明显的优势,但也存在着簇标识相对耗时的问题,所以本文为解决这个问题提供了一种新的、有效的方案,可进一步推进支持向量聚类在文本聚类、图像分割、实例选择学习等方面的应用。

     

    Abstract: Support vector clustering (SVC) is an important boundary-based clustering algorithm in multiple applications for its capability of handling arbitrary cluster shapes. However, SVC's popularity is degraded by its highly intensive time complexity and poor label performance. To overcome such problems, we present a novel efficient and robust convex decomposition based cluster labeling (CDCL) method based on the topological property of dataset. The CDCL decomposes the implicit cluster into convex hulls and each one is comprised by a subset of support vectors (SVs). According to a robust algorithm applied in the nearest neighboring convex hulls, the adjacency matrix of convex hulls is built up for finding the connected components; and the remaining data points would be assigned the label of the nearest convex hull appropriately. The approach's validation is guaranteed by geometric proofs. Time complexity analysis and comparative experiments suggest that CDCL improves both the efficiency and clustering quality significantly.

     

/

返回文章
返回