LLM2D

摘要

arXiv:2504.10478v2 宣告类型: 替换-交叉摘要：我们在推理模型的训练过程中研究了一种故障模式，其中生成的多样性开始崩溃，导致测试时缩放效果不佳。值得注意的是，在监督微调（SFT）过程中，Pass@1 率可靠地得到改进，但在 SFT 的过程中 Pass@k 迅速恶化。令人惊讶的是，通过将最新 SFT 检查点的权重与早期检查点的权重进行插值，即 WiSE-FT，几乎完全恢复了 Pass@k 并同时改进了 Pass@1。WiSE-FT 变体在测试时缩放（Best@k，多数投票）方面表现更好，并且在通过强化学习进一步调整时，使用较少的数据也能获得更优的结果。最后，我们发现 WiSE-FT 提供了补充性的性能增益，这些增益并不能仅通过诱导多样性的解码策略，例如温度缩放来实现。我们提出了 Pass@k 的偏差-方差权衡，相对于测试分布中 Pass@1 的期望和方差。我们发现 WiSE-FT 可以同时减少偏差和方差，而温度缩放本质上是在偏差和方差之间进行权衡。