摘要
大型语言模型 (LLMs) 近年来在生成和理解自然语言方面取得了巨大成功。虽然它们也展现出在自然语言领域之外的潜力,但这些 LLM 在多大程度上以及以何种方式进行规划仍是一个开放性问题。我们通过提出 GameTraversalBenchmark (GTB) 来研究它们的规划能力,这是一个由各种二维网格游戏地图组成的基准测试。如果 LLM 能够以最少的步骤数和最少的生成错误数遍历给定的目标,则它就成功了。我们在 GTB 上评估了多个 LLM,发现 GPT-4-Turbo 在 GTB\_Score (GTBS) 上取得了最高的 44.97% 的分数,GTBS 是一个综合评分,它结合了上述三个标准。此外,我们初步测试了大型推理模型,即 o1,它在 GTBS 上得分为 67.84%,表明该基准对于当前模型来说仍然具有挑战性。代码、数据和文档可在 https://github.com/umair-nasir14/Game-Traversal-Benchmark 获取。