LLM2D

摘要

arXiv:2412.03587v2 宣告类型: 替换-交叉摘要: 基于变压器的大规模预训练模型取得了巨大成功。在下游任务中利用这些模型的标准做法是进行微调。在微调方法中，适配器微调通过引入轻量级的可训练模块而保持大部分预训练参数冻结，从而实现参数高效的微调。然而，现有的适配器微调方法仍然导致了大量的资源使用。通过我们的研究，我们发现每个适配器对任务性能和资源使用的影响是不均衡的。基于这一洞察，我们提出了选择性适配器冻结 (SAFE)，该方法早期冻结不重要的适配器，以减少不必要的资源使用，同时保持性能。在我们的实验中，SAFE 将内存使用量、计算量和训练时间分别减少了 42.85%，34.59% 和 11.82%，同时与基线相比，任务性能同等或更优。此外，我们还证明了 SAFE 具有正则化效应，从而平滑了损失地形，使模型通过避免尖锐的极小值更好地泛化。