LLM2D

摘要

arXiv:2504.01848v2 通告类型: 代替摘要: 我们介绍了 PaperBench，这是一个评估 AI 代理复制最新 AI 研究能力的基准测试。代理必须从头开始复制 20 篇 ICML 2024 幕后论文和口头论文，包括理解论文贡献、开发代码库和成功执行实验。为了进行客观评估，我们开发了评分标准，将每个复制任务逐级分解为具有明确评分标准的小子任务。总计，PaperBench 包含 8,316 个个体可评分的任务。评分标准与每篇 ICML 论文的作者共同开发，以确保准确性和现实性。为了实现可扩展的评估，我们还开发了一个基于大语言模型的裁判来自动评分，并对裁判的性能进行评估，创建了一个单独的基准测试。我们对 PaperBench 进行了几个前沿模型的评估，发现经过测试的性能最好的代理，Claude 3.5 Sonnet (New) 配合开源框架，平均复制得分为 21.0%。最后，我们招募了顶级 ML 博士研究生尝试 PaperBench 的一部分，发现模型尚未超越人类基线。我们已将代码开源（链接见 https://github.com/openai/preparedness），以促进未来研究，了解 AI 代理的 AI 工程能力。