摘要
arXiv:2406.15330v2 宣告类型: 替换
摘要:大型语言模型(LLMs)已经革新了众多研究领域。尽管众所周知,微调对于增强LLMs的能力至关重要,现有的研究表明,微调过程中存在潜在的冗余,因此提出了一种仅更新参数子集的方法。然而,这些方法在训练过程中未能利用任务特定的信息来识别重要的参数。基于梯度本质上包含任务特定数据信息的洞察,我们提出了梯度掩膜调整(GMT),这是一种基于梯度信息选择性更新参数的方法。具体而言,我们计算梯度的绝对值,并对那些相对较小的值应用掩膜。我们在各种任务上的实验证明,GMT 不仅优于传统的微调方法,而且还提升了LLMs性能的上限。进一步分析表明,GMT 对掩膜比例具有鲁棒性,并且在计算效率方面与 vanilla SFT 相当。