摘要
arXiv:2410.02089v2 宣告类型: replace-cross
摘要:部署为代理的大语言模型(LLMs)在多个步骤中解决用户指定的任务,同时将所需的手动参与降到最低。关键的是,这样的LLMs需要将其生成内容与获得的任何反馈相结合,以可靠地实现预期的结果。我们提出了一种端到端的强化学习方法,用于在代码合成领域使模型能够利用执行反馈,而在该领域,最先进的LLMs难以通过迭代改进代码,与独立采样相比。我们在竞争编程任务中进行了基准测试,使用小规模(8B参数)和大规模(70B)模型分别取得了最先进的成果,并将所需样本量减少了数量级。我们对推理时行为的分析表明,我们的方法产生了能够有效利用多步骤自动反馈的LLMs。