LLM2D
RLEF:基于强化学习的代码大型语言模型执行反馈接地方法
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning
作者: Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Taco Cohen, Gabriel Synnaeve
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02089v1

摘要

作为代理部署的大型语言模型 (LLMs) 在多个步骤中解决用户指定的任务,同时将所需的人工参与降至最低。至关重要的是,此类 LLM 需要将其生成内容与获得的任何反馈进行关联,以可靠地实现预期结果。我们提出了一种端到端强化学习方法,用于训练模型在代码合成领域利用执行反馈,在该领域中,与独立采样相比,最先进的 LLM 难以迭代地改进代码。我们在竞赛编程任务上进行基准测试,在这些任务中,我们使用小型 (80 亿参数) 和大型 (700 亿) 模型都取得了新的最先进成果,同时将所需的样本数量减少了一个数量级。我们对推理时间行为的分析表明,我们的方法产生的 LLM 可以有效地利用多个步骤的自动反馈。