LLM2D
RE-Bench:评估语言模型智能体与人类专家相比的前沿人工智能研发能力
RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts
作者: Hjalmar Wijk, Tao Lin, Joel Becker, Sami Jawhar, Neev Parikh, Thomas Broadley, Lawrence Chan, Michael Chen, Josh Clymer, Jai Dhyani, Elena Ericheva, Katharyn Garcia, Brian Goodrich, Nikola Jurkovic, Megan Kinniment, Aron Lajko, Seraphina Nix, Lucas Sato, William Saunders, Maksym Taran, Ben West, Elizabeth Barnes
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2411.15114v1

摘要

前沿人工智能安全策略强调了人工智能主体自动化人工智能研发(R&D)作为一项重要能力的预测。然而,目前对人工智能研发能力的评估很少,而且没有高度现实且能与人类表现直接比较的评估。我们介绍了RE-Bench(研究工程基准,v1),它包含7个具有挑战性的、开放式机器学习研究工程环境以及来自61位不同人类专家的71次8小时尝试的数据。我们证实,我们的专家在8小时内在这些环境中取得了进展,82%的专家尝试获得了非零分数,24%的专家尝试达到或超过了我们强大的参考解决方案。我们通过最佳k值,在不同的时间预算和代理设计下,将人类与几个公共前沿模型进行了比较,发现当两者都获得每个环境2小时的总时间预算时,最佳人工智能代理的分数比人类专家高4倍。然而,人类目前在增加时间预算方面显示出更好的回报,在获得8小时预算时略微超过顶级人工智能代理的分数,并且在两者都获得32小时总时间(跨不同尝试)时,其得分是顶级人工智能代理的两倍。定性地,我们发现现代人工智能代理在许多机器学习主题方面拥有显著的专业知识——例如,一个代理编写了一个比我们任何人类专家都快得多的自定义Triton内核——并且可以比人类快十倍地生成和测试解决方案,成本也低得多。我们开源了评估环境、人类专家数据、分析代码和代理轨迹,以促进未来的研究。