LLM2D

摘要

arXiv:2504.10478v1 交叉类型：摘要：我们在推理模型训练过程中研究了一种故障模式，其中生成的多样性开始崩溃，导致测试时缩放效果不佳。值得注意的是，监督微调（SFT）过程中Pass@1率可靠地得到了改善，但Pass@k迅速恶化。令人惊讶的是，通过插值最新SFT检查点和早期检查点的权重，即WiSE-FT，几乎完全恢复了Pass@k，同时还改善了Pass@1。WiSE-FT变体在测试时缩放（Best@k，多数投票）方面取得了更好的效果，并在进一步通过强化学习调整时，以较少的数据获得了更好的结果。最后，我们发现WiSE-FT提供了无法仅通过多样性诱导解码策略（如温度缩放）实现的补充性能增益。我们形式化了Pass@k相对于Pass@1在测试分布上的期望和方差之间的偏差-方差权衡。我们发现WiSE-FT能够同时减少偏差和方差，而温度缩放本质上在偏差和方差之间进行权衡。