LLM2D

摘要

为了在复杂环境中获得最优约束，逆约束强化学习 (ICRL) 试图以数据驱动的方式从专家演示中恢复这些约束。现有的 ICRL 算法从交互式环境中收集训练样本。然而，这些采样策略的有效性和效率仍然未知。为了弥合这一差距，我们引入了一个具有可证明效率的策略探索框架。具体来说，我们定义了 ICRL 问题的可行约束集，并研究了专家策略和环境动态如何影响约束的最优性。受我们发现的启发，我们提出了两种探索性算法，通过 1) 动态降低成本估计的有界累积误差和 2) 策略性地约束探索策略，来实现高效的约束推断。这两种算法在理论上都具有可处理的样本复杂度。我们在各种环境下实证地证明了我们算法的性能。