针对劣质数据对分类和聚类模型影响的实验评估
Impacts of Dirty Data on Classification and Clustering Models: An Experimental Evaluation
-
摘要: 研究背景
由于劣质数据对数据挖掘和机器学习结果的负面影响,数据质量问题受到了广泛的关注。对于一个分类或聚类任务,训练和测试数据集中的劣质数据都会影响准确性。因此,有必要了解输入数据集的质量和结果准确性间的关联关系。基于该关系,我们能够在考虑数据质量问题的前提下选择合适的模型,并确定哪些数据需要被清洗。然而,目前尚未有研究探索过数据质量与结果准确性之间的关系。
目的
我们的目标是从数据质量维度研究劣质数据对分类和聚类方法的影响。为了实现这一研究目标,我们针对不同数据质量维度的劣质数据对模型结果的影响做了全面的实验评估。
方法
我们首先选择了12个经典的数据挖掘和机器学习模型。为了探索它们对于劣质数据的敏感性和容忍度,我们在9个分类和聚类经典数据集基础上,考虑了多种因素,如数据质量维度,劣质数据比率,数据大小,从而生成了劣质数据集。然后,我们通过实验比较了不同模型在不同种类劣质数据上的性能。基于实验评估结果,我们针对模型选择和数据清洗提供了参考性建议。
结果
通过实验评估,我们首先发现劣质数据影响与错误类型和错误率相关。因此,检测给定数据在每种劣质数据类型下的错误率是必要的。第二,当劣质数据存在时,敏感度最小的模型对劣质数据最不敏感。第三,在分类或聚类任务之前,不必清洗全部的劣质数据。第四,当超出数据质量拐点时,所选择的分类或聚类模型的准确性会令人无法接受。因此,需要将每种劣质数据类型的错误率控制在它的拐点内。第五,随着数据集大小增加,分类和聚类模型的执行时间会随着错误率的增加而产生更大波动。
结论
根据实验评估结果,我们建议用户检测给定数据的错误类型。根据任务要求和占比最大的错误类型,我们建议用户查找相应的敏感度顺序,并选择最不敏感的分类或聚类模型。基于所选择的模型,任务要求和给定数据的错误率,我们建议用户查找相应的数据质量拐点顺序,并对每种劣质数据进行清洗,使其错误率在拐点范围内。Abstract: Data quality issues have attracted widespread attentions due to the negative impacts of dirty data on data mining and machine learning results. The relationship between data quality and the accuracy of results could be applied on the selection of the appropriate model with the consideration of data quality and the determination of the data share to clean. However, rare research has focused on exploring such relationship. Motivated by this, this paper conducts an experimental comparison for the effects of missing, inconsistent, and conflicting data on classification and clustering models. From the experimental results, we observe that dirty-data impacts are related to the error type, the error rate, and the data size. Based on the findings, we suggest users leverage our proposed metrics, sensibility and data quality inflection point, for model selection and data cleaning.