LLM2D

摘要

arXiv:2504.10478v3 宣告类型: replace-cross 摘要: 在推理模型训练过程中，我们研究了一种失效模式，即生成的多样性能开始崩溃，导致在测试时的缩放效果变差。值得注意的是，在监督微调(SFT)过程中，Pass@1率可靠地得到了改善，但Pass@k迅速恶化。令人惊讶的是，通过简单地将最新的SFT检查点权重与早期检查点权重进行内插，也就是WiSE-FT，几乎完全恢复了Pass@k，同时也提高了Pass@1。WiSE-FT 变体在测试时的缩放性能（Best@k，多数投票）更好，并且在通过强化学习进一步调整时，能够通过较少的数据获得更优的结果。最后，我们发现，WiSE-FT 提供了补充性性能增益，这些增益是仅通过多样性能诱导的解码策略（如温度缩放）所无法实现的。我们将Pass@k的偏差-方差权衡形式化为Pass@1在测试分布下的期望和方差。我们发现，WiSE-FT能够同时减少偏差和方差，而温度缩放则固有地在偏差和方差之间权衡。