LLM2D

摘要

针对广泛的现实世界任务进行规划，需要了解并编写所有约束条件。然而，在某些情况下，这些约束条件未知或难以准确指定。一种可能的解决方案是从专家演示中推断未知约束。大多数先前的工作仅限于学习简单的线性约束，或者需要对真实的约束参数化或环境模型有深入的了解。为了解决这些问题，本文提出了一种基于正负样本学习 (PU learning) 的方法，用于从演示中推断连续的、任意的且可能是非线性的约束。从正负样本学习的角度来看，我们将演示中的所有数据视为正样本（可行数据），并学习一个（次）最优策略来生成高奖励但可能不可行的轨迹，这些轨迹作为包含可行和不可行状态的未标记数据。在对数据分布的假设下，通过后处理正负样本学习技术，从这两个数据集学习可行-不可行分类器（即约束模型）。整个方法采用迭代框架，在更新策略（生成和选择更高奖励的策略）和更新约束模型之间交替进行。此外，还引入了一个内存缓冲区来记录和重用先前迭代的样本，以防止遗忘。该方法的有效性在两个 Mujoco 环境中得到验证，成功地推断出连续非线性约束，并在约束精度和策略安全性方面优于基线方法。