LLM2D

摘要

本研究提出了 PII-Scope，这是一个全面的基准，旨在评估针对各种威胁环境下大型语言模型 (LLM) 的 PII 提取攻击的最新方法。我们的研究通过揭示几个对攻击有效性至关重要的超参数（例如演示选择）来提供对这些攻击的更深入理解。在此基础上，我们将研究扩展到更现实的攻击场景，探索采用高级对抗策略（包括重复和多样化查询）以及利用迭代学习进行持续 PII 提取的 PII 攻击。通过广泛的实验，我们的结果揭示了现有单次查询攻击对 PII 泄露的显著低估。事实上，我们表明，在具备复杂的对抗能力和有限的查询预算的情况下，针对预训练模型的 PII 提取率可以提高五倍。此外，我们评估了微调模型上的 PII 泄露情况，表明它们比预训练模型更容易受到泄露。总的来说，我们的工作为现实威胁场景中的 PII 提取攻击建立了严格的经验基准，并为开发有效的缓解策略奠定了坚实的基础。