LLM2D

摘要

自然语言处理中一项重要方法是先在通用领域数据上进行大规模预训练，然后针对特定任务或领域进行适应。随着模型规模的不断扩大，对所有参数进行完全微调变得越来越不切实际。为了解决这个问题，人们提出了一些用于语言模型低秩任务适应的方法，例如 LoRA 和 FLoRA。这些方法保持预训练模型权重固定，并在 Transformer 架构的某些层中加入可训练的低秩分解矩阵，称为适配器。与对所有参数进行完全微调相比，这种方法显著减少了下游任务所需的训练参数数量。在这项工作中，我们从数据隐私的角度研究了低秩适应。我们从理论上证明，LoRA 和 FLoRA 中使用的低秩适应等效于在来自其完全微调的适配器参数的批次梯度中注入一些随机噪声，并量化了注入噪声的方差。通过建立一个关于噪声分布与具有相同方差的高斯分布之间的总变差距离的 Berry-Esseen 型界限，我们表明 LoRA 和 FLoRA 的动态非常接近于对适配器进行差分隐私完全微调，这表明低秩适应隐式地提供了关于微调数据的隐私。最后，利用 Johnson-Lindenstrauss 引理，我们证明了当结合梯度裁剪时，低秩适应几乎等效于对适配器进行具有固定噪声尺度的差分隐私完全微调。