摘要
大型语言模型(LLM)的能力已经显著发展,从自然语言处理扩展到代码理解和生成等复杂任务。我们扩展了LLM能力的范围,将其应用于更广泛的背景,使用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可行性,其中代码片段直接输入模型执行,并返回输出。我们首次对各种LLM的这种可行性进行了全面考察,包括OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder。值得注意的是,o1模型在代码执行方面实现了超过90%的准确率,而其他模型的准确率则较低。此外,我们引入了一种迭代指令提示(IIP)技术,逐行处理代码片段,平均提高了弱模型的准确率7.22%(最高提升18.96%),相对于CoT提示,绝对平均提升3.86%(最高提升19.46%)。我们的研究不仅突出了LLM在编码方面的变革潜力,也为未来自动化编程和完成复杂任务的进步奠定了基础。