摘要
arXiv:2504.01848v3 评价类型: 替换
摘要: 我们引入了PaperBench,这是一个基准测试,评估AI代理复制最先进的AI研究成果的能力。代理必须从零开始复制20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库以及成功执行实验。为了进行客观评估,我们开发了一套等级体系,将每个复制任务逐级分解为更小的子任务,并明确评分标准。总共,PaperBench包含了8,316个可单独评分的任务。等级体系与每篇ICML论文的作者共同开发,以确保准确性和现实性。为了实现可扩展的评估,我们还开发了一个基于LLM的评审员,自动根据等级体系评估复制尝试,并通过为评审员开发一个单独的基准测试来评估评审员的性能。我们在PaperBench上评估了几种前沿模型,发现经过测试的最佳代理Claude 3.5 Sonnet(开源架构)的平均复制得分为21.0%。最后,我们招募了顶级ML博士尝试PaperBench的一部分,发现模型目前仍无法超越人类基线。我们开源了我们的代码(https://github.com/openai/preparedness),以促进对AI代理AI工程能力未来研究的便利。