摘要
arXiv:2504.01848v2 通告类型: 代替
摘 要: 我们介绍了 PaperBench,这是一个评估 AI 代理复制最新 AI 研究能力的基准测试。代理必须从头开始复制 20 篇 ICML 2024 幕后论文和口头论文,包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估,我们开发了评分标准,将每个复制任务逐级分解为具有明确评分标准的小子任务。总计,PaperBench 包含 8,316 个个体可评分的任务。评分标准与每篇 ICML 论文的作者共同开发,以确保准确性和现实性。为了实现可扩展的评估,我们还开发了一个基于大语言模型的裁判来自动评分,并对裁判的性能进行评估,创建了一个单独的基准测试。我们对 PaperBench 进行了几个前沿模型的评估,发现经过测试的性能最好的代理,Claude 3.5 Sonnet (New) 配合开源框架,平均复制得分为 21.0%。最后,我们招募了顶级 ML 博士研究生尝试 PaperBench 的一部分,发现模型尚未超越人类基线。我们已将代码开源(链接见 https://github.com/openai/preparedness),以促进未来研究,了解 AI 代理的 AI 工程能力。