摘要
arXiv:2410.05080v3 通知类型: 替换-交叉
摘要:大型语言模型(LLMs)的进步引起了对基于LLM的语言代理自动化整个科学发现过程的兴趣,这既激发了人们的热情,也引发了对其真正能力的怀疑。在此项工作中,我们呼吁在对科学工作流程中的单个任务进行严格的评估之前,不要做出关于端到端自动化的大胆声明。为此,我们提出了ScienceAgentBench,这是一种新的评估语言代理进行数据驱动科学发现的标准。为了确保我们的标准的科学真实性和实际相关性,我们从44篇同行评议的出版物中提取了四个学科的102个任务,并邀请九名专业领域的专家进行验证。我们将每个任务的目标输出统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务通过多次人工验证和专业领域的专家验证,以确保注释质量和科学合理性。我们还提出了两种有效的策略来缓解数据污染的担忧。使用ScienceAgentBench,我们评估了五种开源和专有的LLM,每种LLM使用三种框架:直接提示、OpenHands CodeAct和自我调试。给每个任务三次尝试的机会,性能最佳的代理只能独立解决32.4%的任务,并在专家提供的知识的帮助下解决34.3%的任务。此外,我们还使用直接提示和自我调试评估了OpenAI o1-preview,这可以将其性能提升到42.2%,证明了增加推理时计算能力的有效性,但成本是其他LLM的10多倍。尽管如此,我们的结果强调了当前语言代理生成用于数据驱动发现的代码的局限性,更不用说科学研究的端到端自动化了。