LLM2D

摘要

arXiv:2312.05114v4 宣告类型: replace-cross 摘要：生成模型产生合成数据的目的是为了提供一种隐私友好的数据发布方法。然而，只有当模型满足差分隐私（DP）时，其隐私保证才被认为是稳健的。遗憾的是，这并不是一个普遍的标准，很多领先的公司（事实上，甚至包括许多研究论文）使用针对合成数据和真实数据统计相似性的自定义隐私指标。在这篇论文中，我们考察了实际合成数据部署中使用的隐私指标，并从多个方面证明了这些指标的不可靠性。首先，我们提供了一些反例，即使隐私测试通过，也会发生严重的隐私泄露，同时我们还通过最少的成本实现了准确的成员关系和属性推断攻击。然后，我们引入了ReconSyn，这是一种重构建攻击，它生成了多个被认为在指标下是私有的合成数据集，但实际上泄露了与单个记录特有的信息。我们证明，ReconSyn仅通过对单一拟合生成模型的黑盒访问以及隐私指标，就能恢复训练数据中78-100%的异常值。在过程中，我们展示了仅对模型应用差分隐私并不能缓解这种攻击，因为使用隐私指标打破了端到端的差分隐私管道。