LLM2D

摘要

arXiv:2505.09027v1 类别: cross 摘要: 我们引入了WebApp1K，这是一种新型基准，用于评估大型语言模型（LLMs）在测试驱动开发（TDD）任务中的性能，其中测试用例既作为代码生成的提示，也作为验证工具。与依赖自然语言提示的传统方法不同，我们的基准强调LLMs直接从测试用例中解释和实现功能的能力，反映了实际软件开发实践。该基准包括20个应用领域内的1000个多样化挑战，评估LLMs在上下文长度和多特征复杂性约束下的代码生成能力。我们的研究结果强调，指令遵循和上下文内学习对于TDD的成功至关重要，超过了通用编码技能或预训练知识的重要性。通过全面评估19个前沿模型，我们揭示了性能瓶颈，例如长提示中的指令损失，并提供了多个根本原因的详细错误分析。这项工作突显了TDD特定基准的实际价值，并为在严格的，应用驱动的编码场景中提升LLM能力奠定了基础。