LLM2D

摘要

arXiv:2505.07473v1 代码助手类型：新摘要：大型语言模型（LLMs）在编码领域的应用正在迅速发展：从代码助手到自主编码代理，再到通过自然语言生成完整的项目。早期的LLM代码基准主要关注代码生成的准确性，但这些基准逐渐变得饱和。基准饱和削弱了其对LLMs的指导作用。例如，HumanEval Pass@1 达到了99.4%，MBPP 达到了94.2%。在各种应对基准饱和的尝试中，基于软件工程的方法脱颖而出，但现有软件工程基准的饱和度正迅速增加。为了解决这个问题，我们提出了一种新的基准——Web-Bench，包含50个项目，每个项目包含20个具有顺序依赖性的任务。任务按顺序实现项目功能，模拟真实世界的代码开发工作流。在设计Web-Bench时，我们旨在涵盖Web开发的基础要素：Web标准和Web框架。鉴于这些项目规模和复杂性较高，它们是由拥有5到10年经验的工程师设计的，每个项目都构成了一个显著的挑战。平均而言，一个项目需要一位高级工程师花费4到8小时才能完成。在我们提供的基准代理（Web-Agent）上，当前最先进模型（Claude 3.7 Sonnet）仅达到了25.1%的Pass@1，显著低于SWE-Bench的Verified（65.4%）和Full（33.8%）得分。最后，我们讨论了在任何开发领域，标准代表了基础的知识，框架则代表了效率工具，LLMs需要针对这些领域进行优化。