摘要
arXiv:2504.18735v1 交叉公告类型
摘要:我们提出了一种名为 TLoRA 的新颖三维低秩适应方法,将权重更新分解为三个矩阵:两个固定的随机矩阵和一个可训练矩阵,并结合了一个可学习的、逐层的缩放因子。这种三维矩阵设计使得 TLoRA 能够在引入最少额外计算开销的情况下实现高效的参数适应。通过在 GLUE 基准上的广泛实验,我们展示了 TLoRA 在性能上与现有的低秩方法(如 LoRA 和 Adapter 基础技术)相当,同时需要显著减少的可训练参数数量。通过对适应动态的分析,我们观察到 TLoRA 具有类似于高斯分布的权重分布、稳定的参数范数以及各层间的缩放因子变化性,进一步突显了其表达能力和适应性。此外,我们还表明,TLoRA 在特征值分布、参数范数和更新的余弦相似度方面与 LoRA 的相似性较高,这进一步证明了其有效地近似 LoRA 的适应行为的能力。我们的结果确立了 TLoRA 作为大语言模型高效且有效的微调方法的地位,并为资源高效模型适应提供了重要的一步。