摘要
arXiv:2504.10766v1 公布类型: 交叉
摘要:随着大型语言模型(LLMs)的后训练从指令遵循发展到复杂的推理任务,对不同数据如何影响微调动力学的理解仍基本上未被探索。在本文中,我们对低/高质量指令和推理数据对LLMs后训练引起层间梯度进行了谱分析。我们的分析揭示了广泛研究的数据评估指标,例如IFD、InsTag、难度和奖励,可以通过梯度的奇异值分解(SVD)计算出的谱属性来解释和统一。具体而言,通常高质量的数据与较低的核范数和较高的有效秩相关。值得注意的是,有效秩在捕捉微妙的质量差异方面比核范数更稳定且分辨率更高。例如,推理数据的有效秩明显高于指令数据,表明更复杂的任务具有更丰富的梯度结构。我们的实验还突显了在同一家族中的模型无论其规模如何,其梯度模式相似,而不同模型家族则表现出显著差异。提供了一种统一视角来剖析指令和推理数据质量的效果,本工作阐明了数据质量与训练稳定性的相互作用,为后训练中开发更好的数据探索策略提供了新的见解。