摘要
arXiv:2505.07473v1 代码助手类型:新
摘要:大型语言模型(LLMs)在编码领域的应用正在迅速发展:从代码助手到自主编码代理,再到通过自然语言生成完整的项目。早期的LLM代码基准主要关注代码生成的准确性,但这些基准逐渐变得饱和。基准饱和削弱了其对LLMs的指导作用。例如,HumanEval Pass@1 达到了99.4%,MBPP 达到了94.2%。在各种应对基准饱和的尝试中,基于软件工程的方法脱颖而出,但现有软件工程基准的饱和度正迅速增加。为了解决这个问题,我们提出了一种新的基准——Web-Bench,包含50个项目,每个项目包含20个具有顺序依赖性的任务。任务按顺序实现项目功能,模拟真实世界的代码开发工作流。在设计Web-Bench时,我们旨在涵盖Web开发的基础要素:Web标准和Web框架。鉴于这些项目规模和复杂性较高,它们是由拥有5到10年经验的工程师设计的,每个项目都构成了一个显著的挑战。平均而言,一个项目需要一位高级工程师花费4到8小时才能完成。在我们提供的基准代理(Web-Agent)上,当前最先进模型(Claude 3.7 Sonnet)仅达到了25.1%的Pass@1,显著低于SWE-Bench的Verified(65.4%)和Full(33.8%)得分。最后,我们讨论了在任何开发领域,标准代表了基础的知识,框架则代表了效率工具,LLMs需要针对这些领域进行优化。