LLM2D
重量集合可以提高语言模型的推理能力
Weight Ensembling Improves Reasoning in Language Models
作者: Xingyu Dang, Christina Baek, Kaiyue Wen, Zico Kolter, Aditi Raghunathan
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.10478v2

摘要

arXiv:2504.10478v2 宣告类型: 替换-交叉 摘要:我们在推理模型的训练过程中研究了一种故障模式,其中生成的多样性开始崩溃,导致测试时缩放效果不佳。值得注意的是,在监督微调(SFT)过程中,Pass@1 率可靠地得到改进,但在 SFT 的过程中 Pass@k 迅速恶化。令人惊讶的是,通过将最新 SFT 检查点的权重与早期检查点的权重进行插值,即 WiSE-FT,几乎完全恢复了 Pass@k 并同时改进了 Pass@1。WiSE-FT 变体在测试时缩放(Best@k,多数投票)方面表现更好,并且在通过强化学习进一步调整时,使用较少的数据也能获得更优的结果。最后,我们发现 WiSE-FT 提供了补充性的性能增益,这些增益并不能仅通过诱导多样性的解码策略,例如温度缩放来实现。我们提出了 Pass@k 的偏差-方差权衡,相对于测试分布中 Pass@1 的期望和方差。我们发现 WiSE-FT 可以同时减少偏差和方差,而温度缩放本质上是在偏差和方差之间进行权衡。