LLM2D

摘要

大型语言模型在根据自然语言描述生成功能代码方面展现出显著的能力。然而，客观且无偏地评估这些能力的标准化方法仍有待发现。本文回顾了当前可用的评估方法，并对一个最先进的模型（GPT4-o-mini）在解决Codewars（一个软件开发社区）中收集的8种编程语言的精选编码挑战方面的性能进行了新的评估。我们的分析表明，模型成功的概率与任务难度、所用编程语言的流行程度以及挑战发布后经过的时间呈正相关。进一步基于高级特征的近似解释性分析暗示，虽然模型性能的46.6%可能归因于任务难度，但37.4%似乎与挑战解决方案泄露到模型训练集中有关，而剩余的16%则取决于编程语言。这些结果表明，目前的评估方法可能会高估大型语言模型生成功能代码的实际能力。