摘要
arXiv:2505.09027v1 类别: cross
摘要: 我们引入了WebApp1K,这是一种新型基准,用于评估大型语言模型(LLMs)在测试驱动开发(TDD)任务中的性能,其中测试用例既作为代码生成的提示,也作为验证工具。与依赖自然语言提示的传统方法不同,我们的基准强调LLMs直接从测试用例中解释和实现功能的能力,反映了实际软件开发实践。该基准包括20个应用领域内的1000个多样化挑战,评估LLMs在上下文长度和多特征复杂性约束下的代码生成能力。我们的研究结果强调,指令遵循和上下文内学习对于TDD的成功至关重要,超过了通用编码技能或预训练知识的重要性。通过全面评估19个前沿模型,我们揭示了性能瓶颈,例如长提示中的指令损失,并提供了多个根本原因的详细错误分析。这项工作突显了TDD特定基准的实际价值,并为在严格的,应用驱动的编码场景中提升LLM能力奠定了基础。