LLM2D

摘要

arXiv:2502.06374v1 类型: cross 摘要: 成员推理攻击（Membership Inference Attacks, MIAs）已成为评估机器学习模型泄露隐私的有效框架。基于评分的MIAs尤其因其能够利用模型为特定输入生成的信任分数而被区分。现有的基于评分的MIAs隐含地假设攻击者可以访问目标模型的超参数，这些超参数可以用于训练攻击的影子模型。在这项工作中，我们展示了在迁移学习场景中，了解目标超参数并不是进行MIAs的前提条件。在此基础上，我们提出了一种新的方法，通过匹配目标模型和影子模型的输出分布来选择训练影子模型的超参数，当攻击者对这些超参数没有先验知识时。我们证明使用新方法可以获得在性能上几乎与使用目标超参数训练影子模型的攻击不可区分的超参数。此外，我们研究了在不同数据差异隐私（Differentially Private, DP）迁移学习中因未考虑使用训练数据进行超参数优化（Hyperparameter Optimization, HPO）而导致的实际隐私风险。我们没有找到统计上显著的证据表明使用训练数据进行HPO会增加MIAs的脆弱性。