LLM2D

摘要

arXiv:2502.06820v1 宣告类型: cross 摘要: 低秩适应（LoRA）已成为将预训练的大型语言模型适应下游任务的一种流行方法。然而，简单的低秩分解形式可能会限制假设空间。为了解决这一局限性，我们引入了基于逆离散余弦变换（iDCT）和可选择的学习组件位置的频率域参数高效微调方法，名为位置感知余弦适应（LoCA）。我们首先对预训练大型模型的频率域和低秩分解在微调中的理论差异进行了全面比较。我们的分析表明，通过仔细选择频率成分进行频率域近似，可以超越基于传统的低秩方法的表达能力。此外，我们证明iDCT相比于逆离散傅里叶变换（iDFT）提供了更高效的实现方式，可以在保持与最优基于iDFT的适应相当的表达能力的同时，更好地选择和调整频率成分。通过在DCT频谱上的可学习系数的离散位置估计梯度，LoCA在训练过程中动态选择最有信息量的频率成分。在各种语言和视觉微调任务上的实验表明，LoCA在保持与基于低秩方法相当的计算可行性的同时，提供了增强的参数效率。