LLM2D

摘要

arXiv:2502.01718v1 Announce Type: cross 摘要：最近的编码器模型的进步主要由监督微调（SFT）驱动，而强化学习（RL）的潜力尚未充分探索，主要是由于代码领域缺乏可靠的奖励数据/模型。在这篇文章中，我们通过利用自动大规模测试案例合成来解决这一挑战，以增强代码模型的训练。具体来说，我们设计了一个管道，从现有的代码数据生成广泛的（问题，测试案例）对。使用这些测试案例，我们基于采样程序的通过率构建偏好对，并使用Bradley-Terry损失训练奖励模型。在最优32采样的情况下，它为Llama-3.1-8B-Ins带来了平均10分的提升，为Qwen2.5-Coder-7B-Ins带来了5分的提升，使得7B模型与DeepSeek-V2.5的236B模型相当。此外，我们使用这两种奖励模型以及测试案例通过奖励进行强化学习，结果在HumanEval、MBPP、BigCodeBench和LiveCodeBench（V4）上都取得了一致的改善。值得注意的是，我们遵循R1风格的训练，直接从Qwen2.5-Coder-base开始，证明了我们的RL训练在HumanEval-plus上可以提高超过25%，在MBPP-plus上提高6%，仅有80步优化步骤。我们认为我们的结果突显了在编码器模型中强化学习的巨大潜力。