LLM2D

摘要

我们系统地评估了七种大型语言模型在使用各种提示策略、编程语言和任务难度生成编程代码方面的性能。GPT-4 显著优于其他大型语言模型，包括 Gemini Ultra 和 Claude 2。GPT-4 的编码性能在不同的提示策略下差异很大。在本研究中评估的大多数 LeetCode 和 GeeksforGeeks 编码竞赛中，使用最佳提示策略的 GPT-4 超过了 85% 的人类参与者。此外，GPT-4 在不同编程语言之间翻译代码和从过去的错误中学习方面表现出强大的能力。GPT-4 生成的代码的计算效率与人类程序员相当。这些结果表明，GPT-4 有潜力作为编程代码生成和软件开发中的可靠助手。