LLM2D
如何指令和推理数据塑造后训练过程:通过层wise梯度视角的数据质量分析
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients
作者: Ming Li, Yanhong Li, Ziyue Li, Tianyi Zhou
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10766v1

摘要

arXiv:2504.10766v1 公布类型: 交叉 摘要:随着大型语言模型(LLMs)的后训练从指令遵循发展到复杂的推理任务,对不同数据如何影响微调动力学的理解仍基本上未被探索。在本文中,我们对低/高质量指令和推理数据对LLMs后训练引起层间梯度进行了谱分析。我们的分析揭示了广泛研究的数据评估指标,例如IFD、InsTag、难度和奖励,可以通过梯度的奇异值分解(SVD)计算出的谱属性来解释和统一。具体而言,通常高质量的数据与较低的核范数和较高的有效秩相关。值得注意的是,有效秩在捕捉微妙的质量差异方面比核范数更稳定且分辨率更高。例如,推理数据的有效秩明显高于指令数据,表明更复杂的任务具有更丰富的梯度结构。我们的实验还突显了在同一家族中的模型无论其规模如何,其梯度模式相似,而不同模型家族则表现出显著差异。提供了一种统一视角来剖析指令和推理数据质量的效果,本工作阐明了数据质量与训练稳定性的相互作用,为后训练中开发更好的数据探索策略提供了新的见解。