LLM2D
RLEF: 在强化学习中通过执行反馈对代码LLM进行约束
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning
作者: Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Quentin Carbonneaux, Taco Cohen, Gabriel Synnaeve
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.02089v2

摘要

arXiv:2410.02089v2 宣告类型: replace-cross 摘要:部署为代理的大语言模型(LLMs)在多个步骤中解决用户指定的任务,同时将所需的手动参与降到最低。关键的是,这样的LLMs需要将其生成内容与获得的任何反馈相结合,以可靠地实现预期的结果。我们提出了一种端到端的强化学习方法,用于在代码合成领域使模型能够利用执行反馈,而在该领域,最先进的LLMs难以通过迭代改进代码,与独立采样相比。我们在竞争编程任务中进行了基准测试,使用小规模(8B参数)和大规模(70B)模型分别取得了最先进的成果,并将所需样本量减少了数量级。我们对推理时行为的分析表明,我们的方法产生了能够有效利用多步骤自动反馈的LLMs。