摘要
arXiv:2502.07656v1 因果模仿学习 (IL) 类型:交叉
摘要:我们提出了一种通用且统一的框架,用于处理具有隐藏混杂变量的因果模仿学习 (IL),该框架涵盖了一些文献中已存在的多种混杂 IL 设置。我们的框架考虑了两种类型的隐藏混杂变量:(a) 专家能观测到的混杂变量,这些变量因此影响了专家的行为策略;(b) 对专家和 IL 算法都隐藏的混杂噪声。为了增加灵活性,我们还引入了混杂噪声的时间范围以及随时间变化的专家可观测的隐藏变量。我们通过利用轨迹历史作为工具变量来学习历史依赖性策略,证明了在我们的框架中可以将因果 IL 归结为条件矩约束 (CMRs)。我们提出了一种名为 DML-IL 的新型算法,该算法使用工具变量回归解决这些 CMRs 并学习策略。我们为 DML-IL 提供了一个模仿差距的上界,该上界以以前的结果为特殊情况。在具有连续状态-动作空间和多个 MuJoCo 任务的小型环境中的实验评估表明,DML-IL 在因果 IL 算法中表现优异。