LLM2D

摘要

大型语言模型（LLM）的能力已经显著发展，从自然语言处理扩展到代码理解和生成等复杂任务。我们扩展了LLM能力的范围，将其应用于更广泛的背景，使用LLM执行代码片段以获取输出。本文率先探索了LLM作为代码执行器的可行性，其中代码片段直接输入模型执行，并返回输出。我们首次对各种LLM的这种可行性进行了全面考察，包括OpenAI的o1、GPT-4o、GPT-3.5、DeepSeek和Qwen-Coder。值得注意的是，o1模型在代码执行方面实现了超过90%的准确率，而其他模型的准确率则较低。此外，我们引入了一种迭代指令提示（IIP）技术，逐行处理代码片段，平均提高了弱模型的准确率7.22%（最高提升18.96%），相对于CoT提示，绝对平均提升3.86%（最高提升19.46%）。我们的研究不仅突出了LLM在编码方面的变革潜力，也为未来自动化编程和完成复杂任务的进步奠定了基础。