基于生成式对抗网络与APriori算法的告警日志数据增强算法
Alarm Log Data Augmentation Algorithm Based on a GAN Model and Apriori
-
摘要:研究背景 在告警检测和诊断等任务中,由于网络环境的复杂性,有效数据的缺乏十分明显。然而,深度学习模型对数据的要求很高,数据不足训练的模型往往效果不佳。传统的基于数据增强算法通过学习数据的概率分布,从而生成数据。以这种方式生成的数据更随机,不符合规则上的分布,并且在依赖规则的根源故障诊断任务中表现不佳。因此,我们旨在设计一种新的报警日志数据扩充算法,该算法将Apriori规则挖掘算法与生成式对抗网络(GAN)相结合,同时根据概率分布和规则生成数据。目的 告警日志数据是格式比较固定的类文本数据,现有的文本数据增强算法没有针对性对告警日志数据做出改进,生成数据质量对告警诊断任务提升不够明显。本文研究目的在于基于告警日志数据具有强规则关联性的特性,设计一种有效的数据增强算法,使生成的数据可以符合原本数据集的规则分布,并能在后续的异常检测、根源故障诊断任务中取得更好的效果。方法 我们将生成式对抗网络与Apriori规则挖掘算法相结合,在GAN模型中加入规则挖掘器,用于提取报警日志数据之间的关联,以获取报警日志数据之间的规则关联特征,并使GAN按规则生成数据,使生成数据符合规则分布。同时,为了提高生成的告警日志数据的多样性并减小GAN暴露偏差问题的影响,我们根据生成的报警日志的质量提出了一种对Apriori参数的动态更新机制,是数据生成中使用的规则都更具有一般代表性。在训练中,我们使用强化学习方法训练模型,并将与规则相关的内容加入到奖励值的计算。结果 我们在HDFS日志数据集与OpenStack日志数据集上对所提的APRGAN效果进行验证。首先,在传统的文本生成任务中对生成数据质量的评估指标BLEU、ROUGE、METEOR的对比中,APRGAN表现最佳。然后,再用不同数据增强方法生成数据训练Deeplog异常检测模型,在异常检测任务中APRGAN生成数据训练的模型的准确率最高。最后,用不同数据增强方法生成数据训练规则推理模型,在根源故障诊断任务中,APRGAN生成数据训练的模型的准确率最高。结论 我们提出的基于Apriori算法的生成式对抗网络(APRGAN)可以充分利用告警日志数据间的规则关联性,生成同时符合概率分布与规则分布的告警日志数据。在实验中验证了所提的APRGAN在告警日志数据增强任务中表现更佳。Abstract: The complexity of alarm detection and diagnosis tasks often results in a lack of alarm log data. Due to the strong rule associations inherent in alarm log data, existing data augmentation algorithms cannot obtain good results for alarm log data. To address this problem, this paper introduces a new algorithm for augmenting alarm log data, termed APRGAN, which combines a generative adversarial network (GAN) with the Apriori algorithm. APRGAN generates alarm log data under the guidance of rules mined by the rule miner. Moreover, we propose a new dynamic updating mechanism to alleviate the mode collapse problem of the GAN. In addition to updating the real reference dataset used to train the discriminator in the GAN, we dynamically update the parameters and the rule set of the Apriori algorithm according to the data generated in each epoch. Through extensive experimentation on two public datasets, it is demonstrated that APRGAN surpasses other data augmentation algorithms in the domain with respect to alarm log data augmentation, as evidenced by its superior performance on metrics such as BLEU, ROUGE, and METEOR.