LLM2D

摘要

语言模型能够记忆详细的模式和信息，这带来了双刃剑效应：它们利用存储的知识在后续任务中取得了令人印象深刻的建模效果，但也引发了重大的隐私问题。传统的基于差分隐私的训练方法通过对所有参数使用统一的噪声分布，提供了稳健的保护措施。然而，这种方法忽略了各个参数在隐私保护方面的不同敏感性和贡献，往往会导致模型效果不佳。为了解决这些局限性，我们提出了 ANADP，一种根据模型参数重要性自适应分配加性噪声的新算法。我们证明了 ANADP 在一系列数据集上缩小了常规微调和传统 DP 微调之间的性能差距，同时保持了所需的隐私约束。