摘要
arXiv:2504.21036v2 公告类型: replace-cross
摘要:微调大型语言模型(LLMs)已成为使它们适应特定任务的关键策略;然而,这一过程引入了重大的隐私挑战,因为敏感训练数据可能会被无意中记住并暴露。虽然差分隐私(DP)在理论上提供了对这种泄露的强大保证,但其在LLMs上的实际隐私有效性仍然不清楚,特别是在不同的微调方法下。在本文中,我们系统地研究了DP对不同微调方法和隐私预算的影响,使用数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下:(1)差分隐私会减少模型的实用性,但其影响在不同的微调方法之间差异很大。(2)在没有DP的情况下,采用不同方法微调的模型的隐私风险差异很大。(3)当应用DP时,即使有较高的隐私预算也可能显著降低隐私风险。(4)在DP训练下的隐私-实用性权衡在不同的微调方法之间差异很大,某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识较强的LLMs部署提供了实用指导,并为未来研究如何在微调方法上优化隐私-实用性权衡奠定了基础。