LLM2D

摘要

arXiv:2504.21036v1 宣称类型: cross 摘要：微调大型语言模型（LLMs）已成为将其适应特定任务的一种基本策略；然而，这一过程引入了重大的隐私挑战，因为敏感训练数据可能会无意中被记忆和暴露。尽管差分隐私（DP）提供了强大的理论保证以防止这种泄漏，但其在LLMs上的实际隐私有效性仍然不清楚，尤其是在不同的微调方法下。在这项研究中，我们系统地调查了DP在不同微调方法和隐私预算下的影响，通过数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下：（1）差分隐私降低了模型的实用性，但其影响在不同微调方法之间差异显著。（2）在没有DP的情况下，使用不同方法微调的模型的隐私风险差异很大。（3）当应用DP时，即使是相对较高的隐私预算也可以显著降低隐私风险。（4）在DP训练下的隐私-实用性折衷差异巨大，某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识强烈的LLM部署提供了实用指导，并为未来研究优化微调方法下的隐私-实用性折衷奠定了基础。