LLM2D

摘要

arXiv:2505.01524v1 宣布类型: cross 摘要：合成数据已成为一种越来越流行的数据共享方式，无需泄露敏感信息。尽管成员推理攻击（MIAs）通常被认为是实证评估合成数据集隐私性的黄金标准，但从业者和研究人员往往依赖于更简单的代理指标，如最近邻记录距离（DCR）。这些指标通过测量训练数据和生成的合成数据之间的相似性来估算隐私性。这种相似性还与训练数据和一个独立的保留真实记录集之间的相似性进行比较，以构建二元隐私测试。如果合成数据与训练数据的相似性不如保留集，那么它就通过了测试，并被认为是私密的。在本文中，我们表明，虽然这些指标计算起来成本较低，但DCR和其他基于距离的指标无法识别隐私泄露。在多个数据集以及经典模型如Baynet和CTGAN和更近期的扩散模型中，我们证明了被代理指标认为是私密的数据集高度容易受到MIAs的影响。我们还发现，基于这些指标的二元隐私测试和连续度量都不足以反映实际的成员推理风险。此外，我们展示了这些失败在不同指标超参数设置和记录选择方法下的一致性。最后，我们论证这些指标在设计上存在缺陷，并提供了一个实际中它们忽略的隐私泄露示例。通过这项工作，我们希望从业者能够转向MIAs作为评估合成数据隐私性的严格、全面的标准，特别是对于声称数据集具有法律匿名性的声明。