LLM2D

摘要

arXiv:2504.10766v1 公布类型: 交叉摘要：随着大型语言模型（LLMs）的后训练从指令遵循发展到复杂的推理任务，对不同数据如何影响微调动力学的理解仍基本上未被探索。在本文中，我们对低/高质量指令和推理数据对LLMs后训练引起层间梯度进行了谱分析。我们的分析揭示了广泛研究的数据评估指标，例如IFD、InsTag、难度和奖励，可以通过梯度的奇异值分解（SVD）计算出的谱属性来解释和统一。具体而言，通常高质量的数据与较低的核范数和较高的有效秩相关。值得注意的是，有效秩在捕捉微妙的质量差异方面比核范数更稳定且分辨率更高。例如，推理数据的有效秩明显高于指令数据，表明更复杂的任务具有更丰富的梯度结构。我们的实验还突显了在同一家族中的模型无论其规模如何，其梯度模式相似，而不同模型家族则表现出显著差异。提供了一种统一视角来剖析指令和推理数据质量的效果，本工作阐明了数据质量与训练稳定性的相互作用，为后训练中开发更好的数据探索策略提供了新的见解。