LLM2D

摘要

arXiv:2502.06820v2 公告类型: replace-cross 摘要：低秩适应（LoRA）已成为将预训练大型语言模型适应下游任务的一种广泛使用的方法。然而，简单的低秩分解形式可能会限制假设空间。为了解决这一局限性，我们引入了位置感知余弦适应（LoCA），这是一种基于逆离散余弦变换（iDCT）且具有可学习组件选择位置的频率域参数高效微调方法。我们首先对频率域和低秩分解在微调预训练大型模型中的差异进行了全面的理论比较。我们的分析表明，通过精心选择频率成分进行频率域分解可以超越基于传统低秩方法的表达能力。此外，我们证明iDCT在实现效率上优于逆离散傅里叶变换（iDFT），使得在保持与基于最优iDFT方法相同表达能力的同时，可以更好地选择和调整频率成分。通过在DCT频谱上的离散位置使用有限差分近似估计可学习系数的梯度，LoCA在训练过程中动态选择最具信息量的频率成分。在各种语言和视觉微调任务上的实验表明，LoCA在保持与基于低秩方法相当的计算可行性的同时，提供了增强的参数效率。