摘要
arXiv:2502.05664v1 类型: cross
摘要: 大型语言模型(LLMs)在代码生成和问题解决方面取得了显著进展。当前的方法使用外部工具迭代调试器,并通过编译器或其他工具的运行时反馈来完善各种方法生成的粗略程序。然而,这些方法的有效性很大程度上依赖于初始代码生成的质量,这仍然是一个开放的挑战。在本文中,我们介绍了CodeSim,这是一种新型的多智能体代码生成框架,通过类人的感知方法全面解决了程序合成、编码和调试的各个阶段。像人类通过视觉仿真验证对任何算法的理解一样,CodeSim独特地通过逐步仿真输入输出来进行计划验证和内部调试。在七个具有挑战性的竞争问题解决和程序合成基准测试中进行的广泛实验表明,CodeSim具有出色的代码生成能力。我们的框架在HumanEval(95.1%)、MBPP(90.7%)、APPS(22%)和CodeContests(29.1%)方面实现了新的最先进结果(pass@1)。此外,当与外部调试器级联时,我们的方法显示出更大的增强潜力。为了促进该领域的进一步研究和发展,我们在以下链接中开源了我们的框架(https://kagnlp.github.io/codesim.github.io/)。