LLM2D

摘要

大型语言模型 (LLMs) 在最近取得的进展展示了它们执行复杂推理任务的能力，但它们在规划方面的有效性仍未得到充分探索。在本研究中，我们评估了 OpenAI 的 o1 模型在各种基准任务上的规划能力，重点关注三个关键方面：可行性、最优性和泛化性。通过对约束密集型任务（例如，$\textit{Barman}$，$\textit{Tyreworld}$）和空间复杂环境（例如，$\textit{Termes}$，$\textit{Floortile}$）的实证评估，我们突出了 o1-preview 在自我评估和约束遵循方面的优势，同时也识别了决策和内存管理方面的瓶颈，特别是在需要强大空间推理能力的任务中。我们的结果表明，o1-preview 在遵守任务约束和管理结构化环境中的状态转换方面优于 GPT-4。然而，该模型经常生成包含冗余操作的次优解决方案，并且难以在空间复杂的任务中有效地泛化。这项初步研究提供了关于 LLM 规划局限性的基础见解，为未来研究提供关键方向，以改进基于 LLM 的规划中的内存管理、决策和泛化。代码可在以下地址获取：$\href{https://github.com/VITA-Group/o1-planning}{\text{https://github.com/VITA-Group/o1-planning}}$.