LLM2D

摘要

arXiv:2409.17538v4 公告类型: replace-cross 摘要：自然语言处理中的一个重要方法是在通用领域数据上对模型进行大规模预训练，然后将其适应到特定的任务或领域。随着模型规模的扩大，对所有参数进行全面微调变得越来越不切实际。为了解决这个问题，已经提出了一些针对语言模型的低秩任务适应方法，例如LoRA和FLoRA。这些方法保持预训练模型权重固定，并在变压器架构的一些层中引入可训练的低秩分解矩阵，称为适配器。这种方法与全面微调所有参数相比，显著减少了下游任务所需的可训练参数数量。在本文中，我们从数据隐私的角度审视了低秩适应。我们理论证明，LoRA和FLoRA中的低秩适应会在批量梯度中注入一些随机噪声，这与适配器参数有关。我们量化了注入噪声的方差，并表明当适应秩较小时，噪声方差较大。通过在注入噪声的分布和具有相同方差的高斯分布之间的总变异性距离上建立类似于Berry-Esseen的界，我们证明了低秩适应的动力学与适配器的微分隐私微调非常接近。最后，借助Johnson-Lindenstrauss引理，当我们与梯度缩放相结合时，低秩适应非常接近使用固定噪声尺度执行DPSGD算法以微调适配器。根据我们的理论发现并由实验结果支持，我们证明了除了缓解空间和计算复杂性外，低秩适应还隐含地提供了对微调数据的隐私保护，而不会导致DPSGD的高空间复杂性。