LLM2D

摘要

arXiv:2504.01848v1 里程碑类型: 新摘要: 我们介绍了PaperBench，这是一个评估AI代理复制最新AI研究能力的基准。代理必须从头开始复制20篇ICML 2024的Spotlight和Oral论文，包括理解论文贡献、开发代码库以及成功执行实验。为了实现客观评价，我们开发了一套评价标准，将每个复制任务逐级分解为更小的子任务，并具有明确的评分标准。Total而言，PaperBench包含了8,316个独立可评分的任务。评分标准与每篇ICML论文的作者共同开发，以确保准确性和现实性。为了实现可扩展的评估，我们还开发了一个基于LLM的裁判系统，自动根据评分标准对复制尝试进行评分，并通过创建一个单独的裁判基准来评估我们裁判系统的表现。我们针对PaperBench评估了几种前沿模型，发现表现最佳的测试代理Claude 3.5 Sonnet（新版本）带有开源架构，实现了平均复制得分为21.0%。最后，我们招募了顶尖的ML博士来尝试PaperBench的一部分，发现模型尚未超越人类基准线。我们[在这里开源我们的代码](https://github.com/openai/preparedness)，以促进未来研究，了解AI代理的AI工程能力。