LLM2D

摘要

arXiv:2502.01718v2 通知类型: replace-cross 摘要：最近的编码器模型的进步主要是由监督微调（SFT）推动的，而强化学习（RL）的潜力尚未得到充分探索，主要是因为缺乏可靠的代码领域的奖励数据/模型。在本文中，我们通过利用自动大规模测试案例合成来应对这一挑战，以增强代码模型的训练。具体来说，我们设计了一个管道，从现有代码数据中生成广泛的（问题，测试案例）对。利用这些测试案例，我们基于采样程序的通过率构建偏好对，并使用Bradley-Terry损失训练奖励模型。通过最好的32个采样，LLama-3.1-8B-Ins的平均改进为10个点，Qwen2.5-Coder-7B-Ins的平均改进为5个点，使得7B模型与236B DeepSeek-V2.5持平。此外，我们使用奖励模型和测试案例通过奖励进行强化学习，导致在HumanEval、MBPP、BigCodeBench和LiveCodeBench（V4）中的一致改进。值得注意的是，我们遵循R1的训练方式，从Qwen2.5-Coder-base直接开始，展示了我们的RL训练可以在HumanEval-plus上提高超过25%，在MBPP-plus上提高6%，只需80个优化步骤。我们认为我们的结果突显了强化学习在编码器模型中的巨大潜力。