LLM2D
通过测试时缩放大型语言模型生成符号世界模型
Generating Symbolic World Models via Test-time Scaling of Large Language Models
作者: Zhouliang Yu, Yuhuan Yuan, Tim Z. Xiao, Fuxiang Frank Xia, Jie Fu, Ge Zhang, Ge Lin, Weiyang Liu
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04728v1

摘要

arXiv:2502.04728v1 宣布类型: 新 摘要: 解决复杂的规划问题需要大规模语言模型(LLMs)明确地建模状态转换,以避免规则违规、遵守约束条件并确保最优性——这一任务受到了自然语言固有的模糊性的阻碍。为了克服这种模糊性,我们利用规划领域定义语言(PDDL)作为一种规划抽象方法,使得能够构建精确和形式化状态描述。利用PDDL,我们能够生成一个符号世界模型,其中经典的搜索算法(例如A*)可以无缝应用以找到最优计划。然而,直接使用当前的LLMs生成PDDL领域仍然是一个开放的挑战,因为缺乏PDDL训练数据。为了解决这一挑战,我们提出了扩大LLMs的测试时计算规模,以增强其PDDL推理能力,从而能够生成高质量的PDDL领域。具体来说,我们引入了一个简单而有效的算法,首先采用Best-of-N采样方法改进初始解的质量,然后通过口头化的机器学习以细粒度的方式优化解。我们的方法在生成PDDL领域方面优于o1-mini,实现了在两个任务(即从自然语言描述或PDDL问题生成PDDL领域)中超过50%的成功率。这无需额外的训练。通过利用PDDL作为状态抽象,我们的方法在几乎所有竞赛级别的规划任务中都优于当前最先进的方法。