机器学习中基于相关差分隐私保护的多方数据发布方法
Correlated Differential Privacy of Multiparty Data Release in Machine Learning
-
摘要: 目前,差分隐私技术被广泛应用于单方场景下隐私保护的数据发布。但是研究表明,普遍存在的数据相关性会引入额外的噪声,从而降低数据的效用。相关差分隐私技术通过数据相关性分析来降低灵敏度提高效用。然而,越来越多的多方数据发布应用对现有方法提出了新的挑战。在本文中,我们提出了一种新的基于相关差分隐私保护的多方数据发布方法。该方法通过重要特征选择和降低相关灵敏度来提高数据效用。我们还提出了一种多方数据相关性分析方法有效降低相关灵敏度,因此减少噪声摄入提高数据效用。此外,本文方法通过对发布数据添加查询噪声和在机器学习算法权重中加入噪声,同时提供低噪声的、差分隐私保护的多方数据发布和机器学习算法发布技术。在实际数据集上的综合实验证明了本文方法的有效性和实用性。
1、研究背景(context):
从理论和经验上平衡隐私和效用是目前机器学习和人工智能领域的重点关注。在多方数据场景下,多维数据带来计算复杂度的增加,同时冗余特征将带来数据效用下降。然而,由于普遍存在的数据相关性使得降维操作引入额外的差分隐私噪声,导致数据效用进一步下降。因此,研究基于相关差分隐私保护的多方数据发布方法对提升机器学习的数据效用具有重要意义。
2、目的(Objective):
我们关注多方数据发布的场景下,针对数据的相关性,研究一种差分隐私保护的多方数据发布方法,实现机器学习算法和查询数据的隐私与效用的均衡。
3、方法(Method):
我们提出一种基于相关差分隐私保护的多方数据发布方法,通过特征选择和放松特征数目降低相关敏感度两个步骤有效提升数据效用。并且,本文方法通过隐私保护机制设计同时提供隐私保护的数据和机器学习算法的发布技术。具体地,我们通过分析特征数目和相关敏感度的关系,设计效用最优的特征选择方法。并且提出一种多方数据相关性分析方法,该方法不但考虑数据相关程度,而且根据多方场景提供的先验知识定义一种更加客观和严格的相关度度量标准,从而有效降低相关敏感度减少噪声摄入。
4、结果(Result & Findings):
我们将相关差分隐私技术拓展到了多方数据发布场景,实现了效用优化的多方隐私保护数据发布方法MP-CRDP,并通过大量综合实验验证该方法的有效性和实用性。实验结果表明,(1)在通用的机器学习数据集上,MP-CRDP能够确定最佳的特征集显著提升数据效用;(2)本文提出的多方数据相关性分析方法相比于同类方法能够有效降低数据的相关敏感度,从而减少噪声摄入提升数据效用;(3)本文方法通过将噪声注入查询数据和机器学习算法的权重,在存在可信服务器的情况下,提供一种能够同时提供隐私数据和机器学习算法的发布机制。
5、结论(Conclusions):
(1)多方数据的维度与数据效用之间存在一定的关联,本文提出的基于相关差分隐私的多方数据发布方法,分析维度变化引起的模型精度变化,从而确定发布的最佳特征集以提升机器学习效用。(2)多方数据发布场景下的相关性分析不但要考虑相关程度,而且基于多方数据的先验知识可以获取更客观的、严格的度量标准,本文提出多方数据相关性分析方法可以有效降低相关敏感度。(3)在通用的机器学习数据集上的综合实验验证了本文方法在发布查询数据和机器学习算法的有效性。本文研究假设存在可信的服务器,未来研究将考虑联邦学习场景下的数据相关性问题。Abstract: Differential privacy (DP) is widely employed for the private data release in the single-party scenario. Data utility could be degraded with noise generated by ubiquitous data correlation, and it is often addressed by sensitivity reduction with correlation analysis. However, increasing multiparty data release applications present new challenges for existing methods. In this paper, we propose a novel correlated differential privacy of the multiparty data release (MP-CRDP). It effectively reduces the merged dataset's dimensionality and correlated sensitivity in two steps to optimize the utility. We also propose a multiparty correlation analysis technique. Based on the prior knowledge of multiparty data, a more reasonable and rigorous standard is designed to measure the correlated degree, reducing correlated sensitivity, and thus improve the data utility. Moreover, by adding noise to the weights of machine learning algorithms and query noise to the release data, MP-CRDP provides the release technology for both low-noise private data and private machine learning algorithms. Comprehensive experiments demonstrate the effectiveness and practicability of the proposed method on the utilized Adult and Breast Cancer datasets.