摘要
本研究提出了 PII-Scope,这是一个全面的基准,旨在评估针对各种威胁环境下大型语言模型 (LLM) 的 PII 提取攻击的最新方法。我们的研究通过揭示几个对攻击有效性至关重要的超参数(例如演示选择)来提供对这些攻击的更深入理解。在此基础上,我们将研究扩展到更现实的攻击场景,探索采用高级对抗策略(包括重复和多样化查询)以及利用迭代学习进行持续 PII 提取的 PII 攻击。通过广泛的实验,我们的结果揭示了现有单次查询攻击对 PII 泄露的显著低估。事实上,我们表明,在具备复杂的对抗能力和有限的查询预算的情况下,针对预训练模型的 PII 提取率可以提高五倍。此外,我们评估了微调模型上的 PII 泄露情况,表明它们比预训练模型更容易受到泄露。总的来说,我们的工作为现实威胁场景中的 PII 提取攻击建立了严格的经验基准,并为开发有效的缓解策略奠定了坚实的基础。