LLM2D
OpenAI 的 o1 模型的规划能力:可行性、最优性和泛化性
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability
作者: Kevin Wang, Junbo Li, Neel P. Bhatt, Yihan Xi, Qiang Liu, Ufuk Topcu, Zhangyang Wang
发布日期: 10/14/2024
arXiv ID: oai:arXiv.org:2409.19924v3

摘要

大型语言模型 (LLMs) 在最近取得的进展展示了它们执行复杂推理任务的能力,但它们在规划方面的有效性仍未得到充分探索。在本研究中,我们评估了 OpenAI 的 o1 模型在各种基准任务上的规划能力,重点关注三个关键方面:可行性、最优性和泛化性。通过对约束密集型任务(例如,$\textit{Barman}$,$\textit{Tyreworld}$)和空间复杂环境(例如,$\textit{Termes}$,$\textit{Floortile}$)的实证评估,我们突出了 o1-preview 在自我评估和约束遵循方面的优势,同时也识别了决策和内存管理方面的瓶颈,特别是在需要强大空间推理能力的任务中。我们的结果表明,o1-preview 在遵守任务约束和管理结构化环境中的状态转换方面优于 GPT-4。然而,该模型经常生成包含冗余操作的次优解决方案,并且难以在空间复杂的任务中有效地泛化。这项初步研究提供了关于 LLM 规划局限性的基础见解,为未来研究提供关键方向,以改进基于 LLM 的规划中的内存管理、决策和泛化。代码可在以下地址获取:$\href{https://github.com/VITA-Group/o1-planning}{\text{https://github.com/VITA-Group/o1-planning}}$.