LLM2D
PaperBench:评估AI复制AI研究的能力
PaperBench: Evaluating AI's Ability to Replicate AI Research
作者: Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.01848v3

摘要

arXiv:2504.01848v3 评价类型: 替换 摘要: 我们引入了PaperBench,这是一个基准测试,评估AI代理复制最先进的AI研究成果的能力。代理必须从零开始复制20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库以及成功执行实验。为了进行客观评估,我们开发了一套等级体系,将每个复制任务逐级分解为更小的子任务,并明确评分标准。总共,PaperBench包含了8,316个可单独评分的任务。等级体系与每篇ICML论文的作者共同开发,以确保准确性和现实性。为了实现可扩展的评估,我们还开发了一个基于LLM的评审员,自动根据等级体系评估复制尝试,并通过为评审员开发一个单独的基准测试来评估评审员的性能。我们在PaperBench上评估了几种前沿模型,发现经过测试的最佳代理Claude 3.5 Sonnet(开源架构)的平均复制得分为21.0%。最后,我们招募了顶级ML博士尝试PaperBench的一部分,发现模型目前仍无法超越人类基线。我们开源了我们的代码(https://github.com/openai/preparedness),以促进对AI代理AI工程能力未来研究的便利。