LLM2D

摘要

arXiv:2502.01718v1 交叉类型：cross 摘要：近年来，大多数编码器模型的进步主要由监督微调（SFT）驱动，而强化学习（RL）的潜力尚未得到充分探索，主要原因在于代码领域缺乏可靠的奖励数据/模型。本文通过利用自动大规模测试案例合成来应对这一挑战，以增强代码模型的训练。具体来说，我们设计了一个流程，在现有代码数据的基础上生成大量的（问题，测试案例）对。使用这些测试案例，基于采样程序的通过率构建偏好对，以布拉德利-泰利损失（Bradley-Terry loss）训练奖励模型。Llama-3.1-8B-Ins模型在最佳32采样中平均提高了10个点，Qwen2.5-Coder-7B-Ins模型提高了5个点，使得7B模型的表现与其236B的DeepSeek-V2.5相当。此外，我们使用奖励模型和测试案例通过奖励进行强化学习，这在HumanEval、MBPP、BigCodeBench和LiveCodeBench（V4）上产生了持续的改进。值得注意的是，我们采用R1风格的训练模式，直接从Qwen2.5-Coder-base开始，显示了我们的RL训练在HumanEval-plus和MBPP-plus上的优化步数仅为80步时分别提高了25%和6%。我们认为，我们的结果突显了强化学习在编码器模型中的巨大潜力。