摘要
arXiv:2503.14499v2 宣告类型: 修订
摘要:尽管在AI基准测试方面取得了快速进展,但基准测试性能的实际意义仍然不清楚。为了以人类能力为基准量化AI系统的能效,我们提出了一种新的度量标准:50%-任务完成时间阈值。这是一般情况下人类完成AI模型以50%的成功率可以完成的任务所需的时间。我们首先使用RE-Bench、HCAST以及66个新的较短任务组合对具有相关领域专业知识的人类进行了计时。在这些任务上,当前最前沿的AI模型(如Claude 3.7 Sonnet)的50%时间阈值约为50分钟。此外,自2019年以来,前沿AI的时间阈值大约每七个月翻一番,尽管2024年这一趋势可能有所加快。AI模型时间阈值的增加似乎是主要由更高的可靠性和适应错误的能力,以及更好的逻辑推理和工具使用能力驱动。我们讨论了这些结果的局限性——包括其外部效度的程度——以及增加自主性对危险能力的影响。如果这些结果适用于实际软件任务,那么这种趋势的外推表明,在未来五年内,AI系统将能够自动完成目前需要人类一个月才能完成的许多软件任务。