摘要
arXiv:2409.17538v5 宣告类型: replace-cross
摘要:自然语言处理的一个重要方法是,在泛化领域数据上对模型进行大规模预训练,然后将其适应到特定任务或领域。随着模型规模的增大,对所有参数进行全面微调变得越来越不实际。为了解决这个问题,一些语言模型的低秩任务适应方法已被提出,例如 LoRA 和 FLoRA。这些方法保持预训练模型权重不变,在变压器架构的某些层中引入可训练的低秩分解矩阵,称为适配器。这种方法显著降低了与全面微调所有参数相比,下游任务所需的可训练参数数量。在本文中,我们从数据隐私的角度研究低秩适应。我们理论证明,LoRA 和 FLoRA 中使用的低秩适应会在适配器参数的批梯度中注入一些随机噪声。我们量化了注入噪声的方差,并展示了低秩适应的适应秩越小,噪声方差越大。通过在注入噪声的分布和具有相同方差的高斯分布之间建立贝里-艾森类型界,我们证明了低秩适应的动力学接近于对适配器进行差分隐私微调的动力学。最后,利用约翰逊-林德施特拉uss 引理,我们证明当与梯度缩放结合使用时,低秩适应非常接近执行带有固定噪声尺度的 DPSGD 算法以微调适配器。我们的理论发现和实验结果表明,除了减轻空间和计算复杂性外,低秩适应还隐式地提供了对微调数据的隐私保护,而不会引入 DPSGD 的高空间复杂性。