LLM2D

摘要

arXiv:2410.02089v2 宣告类型: replace-cross 摘要：部署为代理的大语言模型（LLMs）在多个步骤中解决用户指定的任务，同时将所需的手动参与降到最低。关键的是，这样的LLMs需要将其生成内容与获得的任何反馈相结合，以可靠地实现预期的结果。我们提出了一种端到端的强化学习方法，用于在代码合成领域使模型能够利用执行反馈，而在该领域，最先进的LLMs难以通过迭代改进代码，与独立采样相比。我们在竞争编程任务中进行了基准测试，使用小规模（8B参数）和大规模（70B）模型分别取得了最先进的成果，并将所需样本量减少了数量级。我们对推理时行为的分析表明，我们的方法产生了能够有效利用多步骤自动反馈的LLMs。