摘要
arXiv:2409.13373v1 公告类型: 新增 摘要: 规划行动以实现预期状态的能力长期以来一直被认为是智能代理的核心能力,并且自人工智能诞生以来一直是其研究的重要组成部分。随着大型语言模型(LLMs)的出现,人们对其是否具备这种规划能力产生了浓厚的兴趣。PlanBench 是我们于 2022 年开发的、在 GPT3 发布后不久推出的一个可扩展基准测试,一直是评估 LLMs 规划能力的重要工具。尽管自 GPT3 以来涌现了大量新的私有和开源 LLMs,但在此基准上的进展却出人意料地缓慢。OpenAI 声称,他们最近推出的 o1(草莓)模型经过专门构建和训练,旨在突破自回归 LLMs 的常规限制——使其成为一种新型模型:大型推理模型(LRM)。以此发展为契机,本文全面审视了当前 LLMs 和新 LRMs 在 PlanBench 上的表现。正如我们将看到的,尽管 o1 在基准测试中的表现取得了量子级的提升,超越了竞争对手,但距离完全饱和该基准仍有很大差距。这一改进也引发了关于准确性、效率和保障措施的问题,这些问题必须在部署此类系统之前加以考虑。