LLM2D

摘要

arXiv:2410.12443v2 安全类型：替换-交叉摘要：差分隐私（DP）是针对隐私泄露攻击的事实上隐私标准，包括对大规模语言模型（LLMs）最近发现的多种攻击。然而，我们发现LLMs可以从给定的DP处理过的提示中重建被修改或删除的隐私信息。我们提出了一种基于对LLMs的可访问性的两种攻击（黑盒和白盒攻击），并展示出LLMs可以通过提供示例文本对作为指令（在黑盒攻击中），或通过微调数据（在白盒攻击中），连接DP处理过的文本对和对应的LLMs的私有训练数据。为了说明我们的发现，我们使用常见的数据集（例如WikiMIA、Pile-CC和Pile-Wiki）在现代LLMs（如LLaMA-2、LLaMA-3、ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Claude-3、Claude-3.5、OPT、GPT-Neo、GPT-J、Gemma-2和Pythia）上进行了全面的实验，针对字级和句级DP。实验结果显示了有希望的恢复率，例如针对WikiMIA数据集的字级DP，LLaMA-2 (70B) 的恢复率为72.18%，LLaMA-3 (70B) 的恢复率为82.39%，Gemma-2 的恢复率为75.35%，ChatGPT-4o 的恢复率为91.2%，Claude-3.5 (Sonnet) 的恢复率为94.01%。更为紧迫的是，本研究指出，这些广为人知的LLMs已经成为了现有DP文本净化方法在当前环境中的新的安全风险。