LLM2D
测量AI完成长期任务的能力
Measuring AI Ability to Complete Long Tasks
作者: Thomas Kwa, Ben West, Joel Becker, Amy Deng, Katharyn Garcia, Max Hasin, Sami Jawhar, Megan Kinniment, Nate Rush, Sydney Von Arx, Ryan Bloom, Thomas Broadley, Haoxing Du, Brian Goodrich, Nikola Jurkovic, Luke Harold Miles, Seraphina Nix, Tao Lin, Neev Parikh, David Rein, Lucas Jun Koba Sato, Hjalmar Wijk, Daniel M. Ziegler, Elizabeth Barnes, Lawrence Chan
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.14499v2

摘要

arXiv:2503.14499v2 宣告类型: 修订 摘要:尽管在AI基准测试方面取得了快速进展,但基准测试性能的实际意义仍然不清楚。为了以人类能力为基准量化AI系统的能效,我们提出了一种新的度量标准:50%-任务完成时间阈值。这是一般情况下人类完成AI模型以50%的成功率可以完成的任务所需的时间。我们首先使用RE-Bench、HCAST以及66个新的较短任务组合对具有相关领域专业知识的人类进行了计时。在这些任务上,当前最前沿的AI模型(如Claude 3.7 Sonnet)的50%时间阈值约为50分钟。此外,自2019年以来,前沿AI的时间阈值大约每七个月翻一番,尽管2024年这一趋势可能有所加快。AI模型时间阈值的增加似乎是主要由更高的可靠性和适应错误的能力,以及更好的逻辑推理和工具使用能力驱动。我们讨论了这些结果的局限性——包括其外部效度的程度——以及增加自主性对危险能力的影响。如果这些结果适用于实际软件任务,那么这种趋势的外推表明,在未来五年内,AI系统将能够自动完成目前需要人类一个月才能完成的许多软件任务。