LLM2D
ACECODER: 通过自动化测试案例合成掌握编码 RL
ACECODER: Acing Coder RL via Automated Test-Case Synthesis
作者: Huaye Zeng, Dongfu Jiang, Haozhe Wang, Ping Nie, Xiaotong Chen, Wenhu Chen
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.01718v3

摘要

arXiv:2502.01718v3 宣告类型: replace-cross 摘要:最近的编码器模型进展主要由监督微调(SFT)推动,而强化学习(RL)的潜力尚未充分探索,主要是因为代码领域缺乏可靠的奖励数据/模型。在本文中,我们通过利用自动化大规模测试案例合成来应对这一挑战,以增强代码模型的训练。具体来说,我们设计了一条 pipeline,从现有代码数据生成大量的(问题,测试案例)对。使用这些测试案例,我们基于采样程序的通过率构建偏好对,使用Bradley-Terry损失训练奖励模型。通过最优32次采样,Llama-3.1-8B-Ins在平均方面提高了10个点,Qwen2.5-Coder-7B-Ins提高了5个点,使得7B模型与236B DeepSeek-V2.5性能持平。此外,我们使用两种奖励模型和测试案例通过奖励进行强化学习,导致在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)中取得一致的进步。值得注意的是,我们遵循R1训练方式,直接从Qwen2.5-Coder-base开始,展示了我们的强化学习训练可以在HumanEval-plus上提高超过25%,在MBPP-plus上提高6%,仅为80次优化步骤。我们认为,我们的结果突显了在编码器模型中强化学习的巨大潜力。