LLM2D

摘要

大型语言模型（LLM）的能力已显著提升，其应用范围已从自然语言处理扩展到代码理解和生成等复杂任务。我们进一步拓展了LLM的能力范围，利用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可能性，其中代码片段直接输入模型进行执行，并返回输出结果。我们是首个全面考察这一可行性，并涵盖OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder等各种LLM的研究团队。值得注意的是，o1模型的代码执行准确率超过90%，而其他模型的准确率较低。此外，我们引入了一种迭代指令提示（IIP）技术，该技术逐行处理代码片段，使较弱模型的准确率平均提高了7.22%（最高提高了18.96%），并且相较于思维链提示法（CoT prompting）平均绝对提升了3.86%（最高提升了19.46%）。我们的研究不仅突出了LLM在编码领域的变革潜力，也为未来自动化编程和复杂任务的完成奠定了基础。