LLM2D
基于相似性隐私度量的不足:针对“真正匿名”合成数据集的隐私攻击
The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against "Truly Anonymous" Synthetic Datasets
作者: Georgi Ganev, Emiliano De Cristofaro
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2312.05114v5

摘要

arXiv:2312.05114v5 通告类型: replace-cross 摘要:生成模型产生合成数据旨在提供一种隐私友好的数据发布方法。然而,只有当模型满足差分隐私(DP)时,其隐私保证才被认为具有鲁棒性。遗憾的是,这并没有成为普遍的标准,因为许多知名企业(实际上,许多研究论文)使用基于合成数据与真实数据的统计相似性测试的自定义隐私度量标准。 在这篇论文中,我们考察了实际部署中的隐私度量标准,并以多种方式证明了它们的可靠性问题。首先,我们提供了反例,即使隐私测试通过,严重的隐私泄露仍然会发生,并且能够以极低的成本实施精确的成员身份和属性推理攻击。我们还介绍了ReconSyn,这是一种重构攻击,它生成多个被认为是私有的合成数据集,但实际上泄露了个体记录的独特信息。我们展示了ReconSyn在仅具有单个拟合生成模型和隐私度量的黑盒访问的情况下,可以恢复训练数据中78-100%的异常值。在这个过程中,我们证明了仅对模型应用差分隐私并不能缓解这种攻击,因为使用隐私度量会破坏端到端的差分隐私管道。