摘要
arXiv:2502.13092v1 交叉类型: 宣布
摘要:最近,人们越来越关注利用大规模语言模型(LLMs)从文本描述中生成符号世界模型。尽管LLMs已经在世界建模的背景下得到了广泛探索,但之前的研究所遇到的一些挑战包括评估随机性、依赖间接指标以及研究范围有限。为了解决这些问题,我们基于规划领域定义语言(PDDL)引入了一个新型基准Text2World,该基准包含数百个多样化的领域,并采用了多标准、执行基于的指标来进行更稳健的评估。我们使用Text2World对当前的LLMs进行了基准测试,并发现使用大规模强化学习进行训练的推理模型的表现优于其他模型。然而,即使是表现最好的模型,在世界建模方面的能力也有限。基于这些见解,我们探讨了几种增强LLMs世界建模能力的有希望的策略,包括测试时扩展、代理训练等。我们希望Text2World可以作为一个重要的资源,为未来利用LLMs作为世界模型的研究奠定基础。项目的页面可以在https://text-to-world.github.io/获取。