LLM2D

摘要

为了在复杂的环境中获得最佳约束，逆约束强化学习 (ICRL) 试图从专家演示中以数据驱动的方式恢复这些约束。现有的 ICRL 算法从交互式环境中收集训练样本。然而，这些采样策略的有效性和效率仍然未知。为了弥合这一差距，我们引入了具有保证效率的战略探索框架。具体来说，我们为 ICRL 问题定义了一个可行的约束集，并研究了专家策略和环境动力学如何影响约束的最佳性。受我们发现的启发，我们提出了两种探索性算法，通过以下方式实现有效的约束推断：1) 动态降低成本估计的有界聚合误差；2) 战略性地约束探索策略。这两种算法在理论上都有可处理的样本复杂度。我们在各种环境下实证地证明了我们算法的性能。