LLM2D
通过大型语言模型重建差异隐私文本 sanitization 还原
Reconstruction of Differentially Private Text Sanitization via Large Language Models
作者: Shuchao Pang, Zhigang Lu, Haichen Wang, Peng Fu, Yongbin Zhou, Minhui Xue
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2410.12443v2

摘要

arXiv:2410.12443v2 安全类型:替换-交叉 摘要:差分隐私(DP)是针对隐私泄露攻击的事实上隐私标准,包括对大规模语言模型(LLMs)最近发现的多种攻击。然而,我们发现LLMs可以从给定的DP处理过的提示中重建被修改或删除的隐私信息。我们提出了一种基于对LLMs的可访问性的两种攻击(黑盒和白盒攻击),并展示出LLMs可以通过提供示例文本对作为指令(在黑盒攻击中),或通过微调数据(在白盒攻击中),连接DP处理过的文本对和对应的LLMs的私有训练数据。为了说明我们的发现,我们使用常见的数据集(例如WikiMIA、Pile-CC和Pile-Wiki)在现代LLMs(如LLaMA-2、LLaMA-3、ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Claude-3、Claude-3.5、OPT、GPT-Neo、GPT-J、Gemma-2和Pythia)上进行了全面的实验,针对字级和句级DP。实验结果显示了有希望的恢复率,例如针对WikiMIA数据集的字级DP,LLaMA-2 (70B) 的恢复率为72.18%,LLaMA-3 (70B) 的恢复率为82.39%,Gemma-2 的恢复率为75.35%,ChatGPT-4o 的恢复率为91.2%,Claude-3.5 (Sonnet) 的恢复率为94.01%。更为紧迫的是,本研究指出,这些广为人知的LLMs已经成为了现有DP文本净化方法在当前环境中的新的安全风险。