摘要
arXiv:2503.24378v1 宣布类型: 新
摘要: ACPBench 数据集提供了用于高效规划所需的原子推理任务。该数据集旨在将复杂的计划生成任务分解为最简单的原子推理任务,形式为布尔或多项选择题,模型需从提供的选项中选择正确的答案。虽然 ACPBench 的目标是测试关于操作和变化最简单的推理形式,但在规划任务中,模型通常没有可供选择的选项,因此规划所需的推理形式要求这些任务具有开放性,生成式的形式。为此,我们引入了 ACPBench Hard,这是一个生成版本的 ACPBench,包含开放式问题,模型需要回答这些问题。能够在这些任务中表现良好的模型原则上可以集成到一个规划器中,也可以直接用作策略。我们讨论了这些任务的复杂性以及验证其答案正确性的复杂性,并为每个任务呈现了验证算法。配备了这些验证器,我们测试了多种模型在我们的任务上的性能,发现对于这些任务中的大多数,即使是最大的模型的性能仍然不尽如人意。我们的实验表明,在这些任务中,没有一个模型的表现优于另一个,并且在测试的大多数语言模型中得分低于65%,这表明当前最前沿的语言模型在处理规划推理方面还有很长的路要走。事实上,所谓的推理模型在解决这些推理任务时也遇到了困难。ACPBench Hard 的集合可在以下链接获取: https://ibm.github.io/ACPBench