摘要
为了在复杂的环境中获得最佳约束,逆约束强化学习 (ICRL) 试图从专家演示中以数据驱动的方式恢复这些约束。现有的 ICRL 算法从交互式环境中收集训练样本。然而,这些采样策略的有效性和效率仍然未知。为了弥合这一差距,我们引入了具有保证效率的战略探索框架。具体来说,我们为 ICRL 问题定义了一个可行的约束集,并研究了专家策略和环境动力学如何影响约束的最佳性。受我们发现的启发,我们提出了两种探索性算法,通过以下方式实现有效的约束推断:1) 动态降低成本估计的有界聚合误差;2) 战略性地约束探索策略。这两种算法在理论上都有可处理的样本复杂度。我们在各种环境下实证地证明了我们算法的性能。