摘要
大型语言模型 (LLM) 的进步激发了人们对开发基于 LLM 的语言代理以端到端地自动化科学发现的兴趣,这引发了人们对这类代理的真实能力的兴奋和怀疑。在这项工作中,我们认为,为了让代理完全自动化科学发现,它必须能够完成工作流程中的所有必要任务。因此,我们呼吁在对代理进行大胆的端到端自动化声明之前,对代理在科学工作流程中的各个任务上进行严格的评估。为此,我们提出了 ScienceAgentBench,一个用于评估用于数据驱动科学发现的语言代理的新基准。为了确保我们基准的科学真实性和现实世界相关性,我们从四个学科的 44 篇同行评审出版物中提取了 102 个任务,并聘请了九位学科专家对其进行验证。我们将每个任务的目标输出统一为一个自包含的 Python 程序文件,并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过了注释者和学科专家多轮手动验证,以确保其注释质量和科学合理性。我们还提出了两种有效的策略来减轻数据污染问题。使用我们的基准,我们评估了五个开放权重和专有 LLM,每个 LLM 都有三种框架:直接提示、OpenHands 和自我调试。在每个任务尝试三次的情况下,表现最好的代理只能独立解决 32.4% 的任务,在专家提供的知识帮助下解决 34.3% 的任务。这些结果强调了当前语言代理在生成用于数据驱动发现的代码方面的能力有限,更不用说科学研究的端到端自动化了。