摘要
arXiv:2502.11844v1 Announce Type: cross
摘要:自动生成程序长期以来一直是计算机科学中的一个根本性挑战。近期的基准测试表明,大规模语言模型(LLMs)可以在函数级别有效生成代码、进行代码编辑,并解决算法编码任务。然而,要实现完全自动化,LLMs 应该能够生成生产级别的、自包含的应用模块。为了评估LLMs在解决这一挑战时的创新能力,我们引入了BaxBench,这是一个全新的评估基准,包括392个任务,用于生成后端应用。我们重点关注后端应用三个方面的原因:(i)它们在实践中是相关的,构建了大多数现代Web和云软件的核心组件;(ii)它们难以实现,需要多个函数和文件才能实现所需的功能;(iii)它们是安全关键的,因为它们可能暴露给不可信的第三方,因此需要防止部署时攻击的安全解决方案变得至关重要。BaxBench使用全面的测试案例验证生成的应用的功能,并通过执行端到端的利用来评估其安全暴露情况。我们的实验揭示了当前LLMs在功能和安全方面的一些关键局限性:(i)即使是最优秀的模型,OpenAI o1,在代码正确性方面也只能达到60%;(ii)平均而言,我们能够在超过一半由每个LLM生成的正确程序中成功执行安全利用;(iii)在不太流行的后端框架中,模型进一步难以生成正确和安全的应用程序。在BaxBench上的进展标志着朝向以LLMs实现自主和安全软件开发的重要步骤。