LLM2D

摘要

arXiv:2502.11844v1 Announce Type: cross 摘要：自动生成程序长期以来一直是计算机科学中的一个根本性挑战。近期的基准测试表明，大规模语言模型（LLMs）可以在函数级别有效生成代码、进行代码编辑，并解决算法编码任务。然而，要实现完全自动化，LLMs 应该能够生成生产级别的、自包含的应用模块。为了评估LLMs在解决这一挑战时的创新能力，我们引入了BaxBench，这是一个全新的评估基准，包括392个任务，用于生成后端应用。我们重点关注后端应用三个方面的原因：（i）它们在实践中是相关的，构建了大多数现代Web和云软件的核心组件；（ii）它们难以实现，需要多个函数和文件才能实现所需的功能；（iii）它们是安全关键的，因为它们可能暴露给不可信的第三方，因此需要防止部署时攻击的安全解决方案变得至关重要。BaxBench使用全面的测试案例验证生成的应用的功能，并通过执行端到端的利用来评估其安全暴露情况。我们的实验揭示了当前LLMs在功能和安全方面的一些关键局限性：（i）即使是最优秀的模型，OpenAI o1，在代码正确性方面也只能达到60%；（ii）平均而言，我们能够在超过一半由每个LLM生成的正确程序中成功执行安全利用；（iii）在不太流行的后端框架中，模型进一步难以生成正确和安全的应用程序。在BaxBench上的进展标志着朝向以LLMs实现自主和安全软件开发的重要步骤。