摘要
arXiv:2407.03321v2 通知类型: replace-cross
摘要:近期的工作探索了使用语言模型解决规划问题。一种方法是将规划任务的自然语言描述转换为结构化的规划语言,例如规划领域定义语言(PDDL)。现有的评估方法难以确保语义正确性,并依赖于简单的或不现实的数据集。为了弥合这一差距,我们引入了名为“Planetarium”的基准测试,旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。“Planetarium”包含一个新的PDDL等效算法,能够灵活地评估生成的PDDL的正确性,同时还包含一个包含73种独特的状态组合的数据集,这些组合具有不同难度级别的145,918个从文本到PDDL的配对。最终,我们评估了几个API访问和开源权重的语言模型,揭示了该任务的复杂性。例如,GPT-4o生成的PDDL问题描述中有96.1%是语法可解析的,94.4%是可以解决的,但只有24.8%是语义正确的,这突显了需要为该问题制定更严格的基准测试。