LLM2D

摘要

arXiv:2504.21036v2 公告类型: replace-cross 摘要：微调大型语言模型（LLMs）已成为使它们适应特定任务的关键策略；然而，这一过程引入了重大的隐私挑战，因为敏感训练数据可能会被无意中记住并暴露。虽然差分隐私（DP）在理论上提供了对这种泄露的强大保证，但其在LLMs上的实际隐私有效性仍然不清楚，特别是在不同的微调方法下。在本文中，我们系统地研究了DP对不同微调方法和隐私预算的影响，使用数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下：（1）差分隐私会减少模型的实用性，但其影响在不同的微调方法之间差异很大。（2）在没有DP的情况下，采用不同方法微调的模型的隐私风险差异很大。（3）当应用DP时，即使有较高的隐私预算也可能显著降低隐私风险。（4）在DP训练下的隐私-实用性权衡在不同的微调方法之间差异很大，某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识较强的LLMs部署提供了实用指导，并为未来研究如何在微调方法上优化隐私-实用性权衡奠定了基础。