摘要
arXiv:2504.10478v1 交叉类型:
摘要:我们在推理模型训练过程中研究了一种故障模式,其中生成的多样性开始崩溃,导致测试时缩放效果不佳。值得注意的是,监督微调(SFT)过程中Pass@1率可靠地得到了改善,但Pass@k迅速恶化。令人惊讶的是,通过插值最新SFT检查点和早期检查点的权重,即WiSE-FT,几乎完全恢复了Pass@k,同时还改善了Pass@1。WiSE-FT变体在测试时缩放(Best@k,多数投票)方面取得了更好的效果,并在进一步通过强化学习调整时,以较少的数据获得了更好的结果。最后,我们发现WiSE-FT提供了无法仅通过多样性诱导解码策略(如温度缩放)实现的补充性能增益。我们形式化了Pass@k相对于Pass@1在测试分布上的期望和方差之间的偏差-方差权衡。我们发现WiSE-FT能够同时减少偏差和方差,而温度缩放本质上在偏差和方差之间进行权衡。