LLM2D

摘要

arXiv:2504.01848v3 评价类型: 替换摘要: 我们引入了PaperBench，这是一个基准测试，评估AI代理复制最先进的AI研究成果的能力。代理必须从零开始复制20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库以及成功执行实验。为了进行客观评估，我们开发了一套等级体系，将每个复制任务逐级分解为更小的子任务，并明确评分标准。总共，PaperBench包含了8,316个可单独评分的任务。等级体系与每篇ICML论文的作者共同开发，以确保准确性和现实性。为了实现可扩展的评估，我们还开发了一个基于LLM的评审员，自动根据等级体系评估复制尝试，并通过为评审员开发一个单独的基准测试来评估评审员的性能。我们在PaperBench上评估了几种前沿模型，发现经过测试的最佳代理Claude 3.5 Sonnet（开源架构）的平均复制得分为21.0%。最后，我们招募了顶级ML博士尝试PaperBench的一部分，发现模型目前仍无法超越人类基线。我们开源了我们的代码（https://github.com/openai/preparedness），以促进对AI代理AI工程能力未来研究的便利。