LLM2D
权重集成能提高语言模型的推理能力
Weight Ensembling Improves Reasoning in Language Models
作者: Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, Aditi Raghunathan
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.10478v3

摘要

arXiv:2504.10478v3 宣告类型: replace-cross 摘要: 在推理模型训练过程中,我们研究了一种失效模式,即生成的多样性能开始崩溃,导致在测试时的缩放效果变差。值得注意的是,在监督微调(SFT)过程中,Pass@1率可靠地得到了改善,但Pass@k迅速恶化。令人惊讶的是,通过简单地将最新的SFT检查点权重与早期检查点权重进行内插,也就是WiSE-FT,几乎完全恢复了Pass@k,同时也提高了Pass@1。WiSE-FT 变体在测试时的缩放性能(Best@k,多数投票)更好,并且在通过强化学习进一步调整时,能够通过较少的数据获得更优的结果。最后,我们发现,WiSE-FT 提供了补充性性能增益,这些增益是仅通过多样性能诱导的解码策略(如温度缩放)所无法实现的。我们将Pass@k的偏差-方差权衡形式化为Pass@1在测试分布下的期望和方差。我们发现,WiSE-FT能够同时减少偏差和方差,而温度缩放则固有地在偏差和方差之间权衡。