摘要
arXiv:2504.21036v1 宣称类型: cross
摘要:微调大型语言模型(LLMs)已成为将其适应特定任务的一种基本策略;然而,这一过程引入了重大的隐私挑战,因为敏感训练数据可能会无意中被记忆和暴露。尽管差分隐私(DP)提供了强大的理论保证以防止这种泄漏,但其在LLMs上的实际隐私有效性仍然不清楚,尤其是在不同的微调方法下。在这项研究中,我们系统地调查了DP在不同微调方法和隐私预算下的影响,通过数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下:(1)差分隐私降低了模型的实用性,但其影响在不同微调方法之间差异显著。(2)在没有DP的情况下,使用不同方法微调的模型的隐私风险差异很大。(3)当应用DP时,即使是相对较高的隐私预算也可以显著降低隐私风险。(4)在DP训练下的隐私-实用性折衷差异巨大,某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识强烈的LLM部署提供了实用指导,并为未来研究优化微调方法下的隐私-实用性折衷奠定了基础。