LLM2D

摘要

arXiv:2503.14499v2 宣告类型: 修订摘要：尽管在AI基准测试方面取得了快速进展，但基准测试性能的实际意义仍然不清楚。为了以人类能力为基准量化AI系统的能效，我们提出了一种新的度量标准：50%-任务完成时间阈值。这是一般情况下人类完成AI模型以50%的成功率可以完成的任务所需的时间。我们首先使用RE-Bench、HCAST以及66个新的较短任务组合对具有相关领域专业知识的人类进行了计时。在这些任务上，当前最前沿的AI模型（如Claude 3.7 Sonnet）的50%时间阈值约为50分钟。此外，自2019年以来，前沿AI的时间阈值大约每七个月翻一番，尽管2024年这一趋势可能有所加快。AI模型时间阈值的增加似乎是主要由更高的可靠性和适应错误的能力，以及更好的逻辑推理和工具使用能力驱动。我们讨论了这些结果的局限性——包括其外部效度的程度——以及增加自主性对危险能力的影响。如果这些结果适用于实际软件任务，那么这种趋势的外推表明，在未来五年内，AI系统将能够自动完成目前需要人类一个月才能完成的许多软件任务。