LLM2D

摘要

arXiv:2502.06779v1 类型: cross 摘要：对预训练的视觉模型进行特定任务的微调是计算机视觉中的一种常见做法。然而，随着模型变得越来越大，这一过程变得更加昂贵。最近，参数高效的微调（PEFT）方法因其通过在预训练主干内微调附加的小秩模块来提高训练效率并减少存储需求而受到关注。尽管它们具有优势，但在表示能力和与预训练中间特征的对齐方面面临挑战。为了应对这些问题，我们提出了一种名为 Multi-Kernel Kronecker Adaptation with Re-Scaling Transmission (KARST) 的创新方法，以适用于多种识别任务。具体而言，其多核设计在水平方向扩展了 Kronecker 投影，并将适应矩阵分解为多个互补空间，减少参数依赖性并创建更紧凑的子空间。此外，它还整合了额外的可学习的缩放因子，以更好地与预训练特征分布对齐，从而允许更灵活和平衡的特征聚合。广泛的实验验证了我们的 KARST 能够在几乎无额外推理成本的情况下优于其他 PEFT 方法，得益于其重构参数化的特性。代码在以下地址公开可用：https://github.com/Lucenova/KARST。