LLM2D

摘要

作为代理部署的大型语言模型 (LLMs) 在多个步骤中解决用户指定的任务，同时将所需的人工参与降至最低。至关重要的是，此类 LLM 需要将其生成内容与获得的任何反馈进行关联，以可靠地实现预期结果。我们提出了一种端到端强化学习方法，用于训练模型在代码合成领域利用执行反馈，在该领域中，与独立采样相比，最先进的 LLM 难以迭代地改进代码。我们在竞赛编程任务上进行基准测试，在这些任务中，我们使用小型 (80 亿参数) 和大型 (700 亿) 模型都取得了新的最先进成果，同时将所需的样本数量减少了一个数量级。我们对推理时间行为的分析表明，我们的方法产生的 LLM 可以有效地利用多个步骤的自动反馈。