LLM2D
大型语言模型与人类程序员在生成编程代码方面的比较
Comparing large language models and human programmers for generating programming code
作者: Wenpin Hou, Zhicheng Ji
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2403.00894v2

摘要

我们系统地评估了七种大型语言模型在使用各种提示策略、编程语言和任务难度生成编程代码方面的性能。GPT-4 显著优于其他大型语言模型,包括 Gemini Ultra 和 Claude 2。GPT-4 的编码性能在不同的提示策略下差异很大。在本研究中评估的大多数 LeetCode 和 GeeksforGeeks 编码竞赛中,使用最佳提示策略的 GPT-4 超过了 85% 的人类参与者。此外,GPT-4 在不同编程语言之间翻译代码和从过去的错误中学习方面表现出强大的能力。GPT-4 生成的代码的计算效率与人类程序员相当。这些结果表明,GPT-4 有潜力作为编程代码生成和软件开发中的可靠助手。