LLM2D

摘要

arXiv:2407.03321v2 通知类型: replace-cross 摘要：近期的工作探索了使用语言模型解决规划问题。一种方法是将规划任务的自然语言描述转换为结构化的规划语言，例如规划领域定义语言（PDDL）。现有的评估方法难以确保语义正确性，并依赖于简单的或不现实的数据集。为了弥合这一差距，我们引入了名为“Planetarium”的基准测试，旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。“Planetarium”包含一个新的PDDL等效算法，能够灵活地评估生成的PDDL的正确性，同时还包含一个包含73种独特的状态组合的数据集，这些组合具有不同难度级别的145,918个从文本到PDDL的配对。最终，我们评估了几个API访问和开源权重的语言模型，揭示了该任务的复杂性。例如，GPT-4o生成的PDDL问题描述中有96.1%是语法可解析的，94.4%是可以解决的，但只有24.8%是语义正确的，这突显了需要为该问题制定更严格的基准测试。