LLM2D
行星arium:面向文本转换为结构化规划语言的严格基准测试
Planetarium: A Rigorous Benchmark for Translating Text to Structured Planning Languages
作者: Max Zuo, Francisco Piedrahita Velez, Xiaochen Li, Michael L. Littman, Stephen H. Bach
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2407.03321v2

摘要

arXiv:2407.03321v2 通知类型: replace-cross 摘要:近期的工作探索了使用语言模型解决规划问题。一种方法是将规划任务的自然语言描述转换为结构化的规划语言,例如规划领域定义语言(PDDL)。现有的评估方法难以确保语义正确性,并依赖于简单的或不现实的数据集。为了弥合这一差距,我们引入了名为“Planetarium”的基准测试,旨在评估语言模型从规划任务的自然语言描述生成PDDL代码的能力。“Planetarium”包含一个新的PDDL等效算法,能够灵活地评估生成的PDDL的正确性,同时还包含一个包含73种独特的状态组合的数据集,这些组合具有不同难度级别的145,918个从文本到PDDL的配对。最终,我们评估了几个API访问和开源权重的语言模型,揭示了该任务的复杂性。例如,GPT-4o生成的PDDL问题描述中有96.1%是语法可解析的,94.4%是可以解决的,但只有24.8%是语义正确的,这突显了需要为该问题制定更严格的基准测试。