LLM2D

摘要

大型语言模型（LLMs）在代码生成任务中展现出巨大的潜力，而最近在提示工程方面的研究增强了 LLMs 对文本信息的理解能力。然而，确保生成代码的准确性通常需要程序员进行大量的测试和验证。虽然 LLMs 通常可以根据任务描述生成代码，但它们的准确性仍然有限，特别是对于需要更深入理解问题陈述和代码生成过程的复杂任务而言。这种局限性主要是由于 LLMs 需要同时理解文本并生成语法和语义上正确的代码，而没有能力自动优化代码。在现实世界的软件开发中，程序员很少能根据任务描述一次性生成完美无缺的代码，他们依靠迭代反馈和调试来优化程序。受此过程启发，我们引入了一种新型的基于 LLMs 的代码生成和自动调试代理架构：精炼与引导调试 (RGD)。RGD 框架是一个基于多 LLMs 的代理调试器，它利用三个不同的 LLM 代理——引导代理、调试代理和反馈代理。RGD 将代码生成任务分解为多个步骤，确保更清晰的工作流程，并能够基于自我反思和反馈进行迭代代码优化。实验结果表明，RGD 在代码生成方面表现出非凡的能力，在 HumanEval 数据集上取得了 9.8% 的改进，在 MBPP 数据集上取得了 16.2% 的改进，优于最先进的方法和传统的直接提示方法。我们强调了 RGD 框架在增强 LLMs 自主生成和优化代码能力方面的有效性。