LLM2D

摘要

针对自主 AI 智能体的目标指令，不能假设物体拥有唯一的名称。相反，目标中的物体必须通过提供合适的描述来进行指代。然而，这在经典规划和通用规划中都带来了问题。在经典规划中，处理存在量化目标的标准方法是将其编译成一个 DNF 公式，该公式编码所有可能的变量绑定，并添加虚拟动作将每个 DNF 项映射到新的虚拟目标。这种预处理在变量数量上呈指数级增长。在通用规划中，问题有所不同：即使通用策略能够处理任何初始情况和目标，执行通用策略也需要将目标进行接地以定义策略特征的值。目标接地的难题，即找到绑定目标变量的物体，非常微妙：它泛化了经典规划，经典规划是当没有目标变量需要绑定时的特例；它也泛化了约束推理，约束推理是当没有动作时的特例。在这项工作中，我们采用了一种新颖的监督学习方法来解决目标接地问题。一个 GNN 架构经过训练，可以预测在小型领域实例上部分量化目标的成本，并在涉及更多物体和不同量化目标的较大实例上进行测试。所提出的架构在几个规划领域进行了实验评估，其中泛化性沿着几个维度进行了测试，包括目标变量的数量以及可以绑定这些变量的物体的数量。在已知的 GNN 与 C2 逻辑之间的关系的背景下，也讨论了该方法的范围。