摘要
针对广泛的现实世界任务进行规划,需要了解并编写所有约束条件。然而,在某些情况下,这些约束条件未知或难以准确指定。一种可能的解决方案是从专家演示中推断未知约束。大多数先前的工作仅限于学习简单的线性约束,或者需要对真实的约束参数化或环境模型有深入的了解。为了解决这些问题,本文提出了一种基于正负样本学习 (PU learning) 的方法,用于从演示中推断连续的、任意的且可能是非线性的约束。从正负样本学习的角度来看,我们将演示中的所有数据视为正样本(可行数据),并学习一个(次)最优策略来生成高奖励但可能不可行的轨迹,这些轨迹作为包含可行和不可行状态的未标记数据。在对数据分布的假设下,通过后处理正负样本学习技术,从这两个数据集学习可行-不可行分类器(即约束模型)。整个方法采用迭代框架,在更新策略(生成和选择更高奖励的策略)和更新约束模型之间交替进行。此外,还引入了一个内存缓冲区来记录和重用先前迭代的样本,以防止遗忘。该方法的有效性在两个 Mujoco 环境中得到验证,成功地推断出连续非线性约束,并在约束精度和策略安全性方面优于基线方法。