LLM2D

摘要

arXiv:2504.09702v1 公告类型: 新增摘要: 目前对大型语言模型（LLM）代理在科学发现上的评估缺乏客观的基准和指标来评估其提出的方法的可行性。为解决这一问题，我们引入了MLRC-Bench，这是一个旨在量化语言代理在应对具有挑战性的机器学习（ML）研究竞赛方面能力的基准。我们的基准突显了需要新颖方法解决的开放研究问题，而不同于最近的基准，如OpenAI的MLE-Bench（Chan等，2024）和METR的RE-Bench（Wijk等，2024），这些基准主要关注通过足够的工程努力可以基本解决的既定研究任务。与之前的如AI Scientist（Lu等，2024b）工作不同，AI Scientist通过对LLM进行评估来模拟整个代理流程，MLRC-Bench衡量提出和实施新颖研究方法的关键步骤，并使用新的严格协议和客观指标进行评估。我们精心挑选的7项竞赛任务揭示了LLM代理面临的重大挑战。即使表现最好的测试代理（在MLAB下，gemini-exp-1206（Huang等，2024a））也只能缩小基线与顶级人类参与者得分之间的差距的9.3%。此外，我们的分析揭示了LLM评判的创新与其在前沿ML研究问题上的实际表现之间的不一致。MLRC-Bench是一个动态基准，旨在随着新的ML竞赛的加入而持续增长，以此鼓励对人工智能研究能力进行严谨和客观的评估。