We use cookies to improve your experience with our site.

基于shapelet的两阶段时间序列PU学习

Shapelet Based Two-Step Time Series Positive and Unlabeled Learning

  • 摘要:
    研究背景 在过去十年中,时间序列分类取得了重大进展。然而,在现实的工业环境中,获取高质量的标记数据既昂贵又困难。往往我们需要面对的数据场景是有限的正例和大量无标签的样本,例如事件发现、异常检测等。因此,一个更现实的问题,正例-无标签例学习(PU-learning)问题最近变得越来越流行。
    目的 问题的初始设定是,我们只有少数正例样本P和大量无标签的时间序列样本U,根据他们去构建而分类器对测试数据进行分类。当前时间序列数据的PU学习方法精度较低,因为缺乏负例时间序列样本,使得识别特征的提取具有挑战性。我们的研究目的就是只根据有限的P和大量U,来寻找有意义的时间序列特征,进而根据他设计分类算法提升PU学习算法精度。
    方法 我们用了一种两阶段的方法来得到分类器。阶段一:通过P集合将P中的时间序列拼接起来成为一个长序列通过motif发现的方法找到motif子序列集合,并根据我们提出的一个类TFIDF统计指标TF-DDF排序筛选生成具有P类别代表意义的P-shapelet集合。由于P-shapelet集合可以代表P集合的特征,那么通过投票的方法利用这个P-shapelet集合可以找到和P-shapelet不那么像的时间序列集合N作为负例时间序列。然后用寻找与P-shapelet类似的方法拼接N序列生成代表N例子集合的N-shapelet集合与P-shapelet合并形成所有shapelet candidate备用。阶段二:利用shapelet candidate中的shapelet与DS中的时间序列样本算最近距离(这个过程称为shapelet transformation(形状变换))生成时间序列特征,通过我们的CSI分数对特征进行筛选得到训练集合。P和N作为训练集。U集合中其他例子作为测试集构建svm分类器进行分类。
    结果 实验结果显示,我们的基于shapelet的两阶段时间序列PU学习方法在与传统的标签传播和基于代价敏感学习的PU学习算法比较中在精度上平均提升了9.1%的F1分数。在15个时间序列数据集上我们的方法在10个数据集上的准确率都要优于其他方法。
    结论 在本文中,我们提出了一种时间序列PU学习问题的两阶段方法。我们首先找到一组高质量的shapelet,然后基于它们获得一些负时间序列。因此,我们将PU学习问题转化为传统的时间序列分类问题。该方法在15个时间序列数据集中的10个数据集上实现了最高的精度,这验证了两步方法比基于标签传播的方法和基于ERM的方法具有优势。

     

    Abstract: In the last decade, there has been significant progress in time series classification. However, in real-world industrial settings, it is expensive and difficult to obtain high-quality labeled data. Therefore, the positive and unlabeled learning (PU-learning) problem has become more and more popular recently. The current PU-learning approaches of the time series data suffer from low accuracy due to the lack of negative labeled time series. In this paper, we propose a novel shapelet based two-step (2STEP) PU-learning approach. In the first step, we generate shapelet features based on the positive time series, which are used to select a set of negative examples. In the second step, based on both positive and negative time series, we select the final features and build the classification model. The experimental results show that our 2STEP approach can improve the average F1 score on 15 datasets by 9.1% compared with the baselines, and achieves the highest F1 score on 10 out of 15 time series datasets.

     

/

返回文章
返回