LLM2D

摘要

大型语言模型（LLM）在代码生成任务中展现出惊人的潜力，而最近在提示工程方面的研究增强了LLM对文本信息的理解能力。然而，确保生成代码的准确性通常需要程序员进行大量的测试和验证。虽然LLM通常可以根据任务描述生成代码，但它们的准确性仍然有限，特别是对于需要更深入理解问题陈述和代码生成过程的复杂任务而言。这种局限性主要是由于LLM需要同时理解文本并生成语法和语义上正确的代码，而没有自动细化代码的能力。在现实世界的软件开发中，程序员很少能根据任务描述在一次尝试中就生成完美的代码，他们依靠迭代反馈和调试来改进他们的程序。受此过程的启发，我们提出了一种用于代码生成和自动调试的基于LLM的代理的新型架构：细化和引导调试（RGD）。RGD框架是一个基于多LLM的代理调试器，它利用三个不同的LLM代理——引导代理、调试代理和反馈代理。RGD将代码生成任务分解成多个步骤，确保更清晰的工作流程，并能够基于自我反省和反馈进行迭代代码细化。实验结果表明，RGD展现出非凡的代码生成能力，在HumanEval数据集上取得了最先进的性能，与最先进的方法和传统的直接提示方法相比，分别提高了9.8%和16.2%。我们强调了RGD框架在增强LLM自主生成和细化代码的能力方面的有效性。