摘要
arXiv:2504.01848v1 里程碑类型: 新
摘要: 我们介绍了PaperBench,这是一个评估AI代理复制最新AI研究能力的基准。代理必须从头开始复制20篇ICML 2024的Spotlight和Oral论文,包括理解论文贡献、开发代码库以及成功执行实验。为了实现客观评价,我们开发了一套评价标准,将每个复制任务逐级分解为更小的子任务,并具有明确的评分标准。Total而言,PaperBench包含了8,316个独立可评分的任务。评分标准与每篇ICML论文的作者共同开发,以确保准确性和现实性。为了实现可扩展的评估,我们还开发了一个基于LLM的裁判系统,自动根据评分标准对复制尝试进行评分,并通过创建一个单独的裁判基准来评估我们裁判系统的表现。我们针对PaperBench评估了几种前沿模型,发现表现最佳的测试代理Claude 3.5 Sonnet(新版本)带有开源架构,实现了平均复制得分为21.0%。最后,我们招募了顶尖的ML博士来尝试PaperBench的一部分,发现模型尚未超越人类基准线。我们[在这里开源我们的代码](https://github.com/openai/preparedness),以促进未来研究,了解AI代理的AI工程能力。