摘要
大型语言模型(LLM)的能力已显著提升,其应用范围已从自然语言处理扩展到代码理解和生成等复杂任务。我们进一步拓展了LLM的能力范围,利用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可能性,其中代码片段直接输入模型进行执行,并返回输出结果。我们是首个全面考察这一可行性,并涵盖OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder等各种LLM的研究团队。值得注意的是,o1模型的代码执行准确率超过90%,而其他模型的准确率较低。此外,我们引入了一种迭代指令提示(IIP)技术,该技术逐行处理代码片段,使较弱模型的准确率平均提高了7.22%(最高提高了18.96%),并且相较于思维链提示法(CoT prompting)平均绝对提升了3.86%(最高提升了19.46%)。我们的研究不仅突出了LLM在编码领域的变革潜力,也为未来自动化编程和复杂任务的完成奠定了基础。