LLM2D
通过测试时缩放大型语言模型生成符号世界模型
Generating Symbolic World Models via Test-time Scaling of Large Language Models
作者: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
发布日期: 5/9/2025
arXiv ID: oai:arXiv.org:2502.04728v2

摘要

arXiv:2502.04728v2 宣告类型: 替换 摘要: 解决复杂规划问题需要大型语言模型(LLMs)明确建模状态转换,以避免规则违规、遵守约束并确保最优性——这一任务受到了自然语言固有模糊性的限制。为了克服这种模糊性,我们利用规划领域定义语言(PDDL)作为一种规划抽象,使得能够进行精确和形式化的状态描述。借助PDDL,可以生成一个符号世界模型,在其中经典的搜索算法(如A*)可以无缝应用以找到最优计划。然而,直接使用当前的LLMs生成PDDL领域仍然是一个开放的问题,原因在于缺乏PDDL训练数据。为了解决这一挑战,我们提出通过扩大LLMs在测试时的计算规模来增强其PDDL推理能力,从而能够生成高质量的PDDL领域。具体来说,我们引入了一种简单而有效的算法,首先采用N选最优样本方法以提高初始解的质量,然后通过口头化的机器学习对解进行精巧的细化。我们的方法在生成PDDL领域方面显著优于o1-mini,在两个任务(即从自然语言描述或PDDL问题生成PDDL领域)上达到超过50%的成功率,且不需要额外的训练。由于利用了PDDL作为状态抽象,我们的方法在几乎所有竞赛级别的规划任务上都优于当前最先进的方法。