LLM2D
基于相似性的隐私度量不足:针对“真正匿名”的合成数据集的隐私攻击
The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets
作者: Georgi Ganev, Emiliano De Cristofaro
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2312.05114v3

摘要

arXiv:2312.05114v3 宣告类型: replace-cross 摘要:生成模型产生合成数据的目的是提供一种数据发布的隐私友好方法。然而,只有当模型满足差分隐私(DP)时,其隐私保证才被认为是稳健的。遗憾的是,这并不是一个普遍的标准,因为许多领先公司(实际上,还包括研究论文)使用基于测试合成数据与真实数据统计相似性的临时性隐私度量标准。 在本文中,我们探讨了实际合成数据部署中使用的隐私度量标准,并通过多种方式证明了它们的不可靠性。首先,我们提供了一些反例,即使隐私测试通过,严重隐私泄露也仍然可能发生,并借助最少的成本实例化了准确的成员身份和属性推断攻击。然后,我们引入了ReconSyn,这是一种重构攻击,它可以生成被视为隐私的多个合成数据集,但实际上泄露了与个别记录相关的独特信息。我们展示了ReconSyn仅通过单一生成模型的黑盒访问及其隐私度量即可恢复训练数据中78-100%的异常值。在这一过程中,我们证明了仅对模型应用差分隐私并不能缓解这种攻击,因为使用隐私度量会破坏端到端的差分隐私管道。