摘要
arXiv:2502.01718v1 交叉类型:cross
摘要:近年来,大多数编码器模型的进步主要由监督微调(SFT)驱动,而强化学习(RL)的潜力尚未得到充分探索,主要原因在于代码领域缺乏可靠的奖励数据/模型。本文通过利用自动大规模测试案例合成来应对这一挑战,以增强代码模型的训练。具体来说,我们设计了一个流程,在现有代码数据的基础上生成大量的(问题,测试案例)对。使用这些测试案例,基于采样程序的通过率构建偏好对,以布拉德利-泰利损失(Bradley-Terry loss)训练奖励模型。Llama-3.1-8B-Ins模型在最佳32采样中平均提高了10个点,Qwen2.5-Coder-7B-Ins模型提高了5个点,使得7B模型的表现与其236B的DeepSeek-V2.5相当。此外,我们使用奖励模型和测试案例通过奖励进行强化学习,这在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)上产生了持续的改进。值得注意的是,我们采用R1风格的训练模式,直接从Qwen2.5-Coder-base开始,显示了我们的RL训练在HumanEval-plus和MBPP-plus上的优化步数仅为80步时分别提高了25%和6%。我们认为,我们的结果突显了强化学习在编码器模型中的巨大潜力。