We use cookies to improve your experience with our site.

隐含狄利克雷分配模型训练算法的参数估计与防御能力的优化方法

Improving Parameter Estimation and Defensive Ability of Latent Dirichlet Allocation Model Training Under Rényi Differential Privacy

  • 摘要: 1、研究背景(context)
    隐含狄利克雷分配(LDA)模型在机器学习领域有着广泛的应用,其在处理非结构化数据,尤其是文本数据方面有着独特的优势。坍缩吉布斯采样(CGS)算法,是一种常用的LDA模型训练算法。在利用CGS算法学习LDA模型参数的过程中,CGS算法的某些敏感的参数更新信息存在被攻击者利用以进行隐私攻击的风险。具体而言,词频统计信息与主题更新信息是两类重要的敏感信息,这两类信息存在被攻击者获取用以构建成员推断攻击模型的风险。同时,这两类敏感信息对LDA模型参数估计的准确性有着重要的影响。针对这两类敏感信息,已有的研究分别提出了对应的隐私保护方法:在词频统计信息中加入噪声以保护敏感的词频统计信息,利用CGS算法的内在隐私保护主题更新的敏感信息。在相应的隐私保护机制或方法的基础上,最近的研究将差分隐私定义引入CGS算法中,给隐私信息的泄露程度提供了定量化的度量方法。
    2、目的(Objective)
    针对敏感的词频统计信息与主题更新信息的保护,已有研究提出的隐私保护方法存在一些局限。基于传统的拉普拉斯机制或高斯机制采样得到的噪声可能使得用于参数估计的词频计数变为负值,负的词频计数会极大地影响参数估计的准确性。由于CGS算法本身的特性,利用CGS算法的内在隐私保护主题更新信息时,只能提供较弱的隐私保护。另外,针对CGS算法的隐私损失,已有研究提出的衡量方法常常过高地估计隐私损失,使得隐私预算不能得到充分地利用。
    3、方法(Method)
    为了获得CGS算法的隐私损失的紧确上界,本文将最近提出的瑞利差分隐私(RDP)引入CGS算法,提出了能有效分析CGS算法的隐私损失的一般化框架,即RDP-LDA。在RDP-LDA的框架下,本文提出了截断高斯机制,通过直接从截断高斯分布中采样扰动的词频统计量,改善CGS算法参数估计的准确性。同时,本文提出分布扰动的方法,通过在采样分布中引入一定量的噪声,保护主题更新信息,获得了更强的隐私防御能力。本文从理论上给出了利用RDP-LDA分析所得的CGS算法的隐私损失的紧确上界,详细对比了截断高斯机制与传统的高斯机制之间的差别与联系,从理论上分析了分布扰动方法的优势。
    4、结果(Result & Findings)
    本文基于瑞利散度对截断高斯机制的隐私性给出了严格的数学分析,并在CGS算法中引入截断高斯机制用于参数估计,在KOS与NIPS数据集上进行实验的结果表明,相较于在CGS算法中利用传统的高斯机制,对于至少60%的主题,利用截断高斯机制能获得更准确的参数估计。同时,本文提出了一种针对LDA模型的文档层面的成员推断攻击模型的构建方法,并比较了利用CGS算法内在隐私与分布扰动方法应对此攻击的防御能力,在精度与召回率的标准下,分布扰动方法能获得更强的成员推断攻击防御能力。
    5、结论(Conclusions)
    理论分析与实验结果表明,RDP-LDA框架能给出CGS算法更紧确的隐私损失上界。在CGS算法中利用截断高斯机制获得的参数估计相比于利用传统的高斯机制获得的参数估计更准确。分布扰动方法理论上能提供任意程度的差分隐私保护,相较于利用CGS算法的内在隐私,其能提供更强的应对成员推断攻击的防御能力。

     

    Abstract: Latent Dirichlet allocation (LDA) is a topic model widely used for discovering hidden semantics in massive text corpora. Collapsed Gibbs sampling (CGS), as a widely-used algorithm for learning the parameters of LDA, has the risk of privacy leakage. Specifically, word count statistics and updates of latent topics in CGS, which are essential for parameter estimation, could be employed by adversaries to conduct effective membership inference attacks (MIAs). Till now, there are two kinds of methods exploited in CGS to defend against MIAs: adding noise to word count statistics and utilizing inherent privacy. These two kinds of methods have their respective limitations. Noise sampled from the Laplacian distribution sometimes produces negative word count statistics, which render terrible parameter estimation in CGS. Utilizing inherent privacy could only provide weak guaranteed privacy when defending against MIAs. It is promising to propose an effective framework to obtain accurate parameter estimations with guaranteed differential privacy. The key issue of obtaining accurate parameter estimations when introducing differential privacy in CGS is making good use of the privacy budget such that a precise noise scale is derived. It is the first time that R′enyi differential privacy (RDP) has been introduced into CGS and we propose RDP-LDA, an effective framework for analyzing the privacy loss of any differentially private CGS. RDP-LDA could be used to derive a tighter upper bound of privacy loss than the overestimated results of existing differentially private CGS obtained by ε-DP. In RDP-LDA, we propose a novel truncated-Gaussian mechanism that keeps word count statistics non-negative. And we propose distribution perturbation which could provide more rigorous guaranteed privacy than utilizing inherent privacy. Experiments validate that our proposed methods produce more accurate parameter estimation under the JS-divergence metric and obtain lower precision and recall when defending against MIAs.

     

/

返回文章
返回