摘要
arXiv:2411.07007v2 逆强化学习(IRL)类型:替换交叉
摘要:在逆强化学习(IRL)中,智能体通过与环境的交互来复制专家演示。传统上,IRL 被视为一种对抗博弈,其中对手在奖励模型中进行搜索,而学习者通过反复的 RL 程序优化奖励。这种博弈解决方法既计算成本高昂又难以稳定。在本文中,我们提出了一种新的 IRL 方法,采用了直接策略优化的方法:通过将回报线性分解为后继特征和奖励向量的内积,我们设计了一个通过学习者和专家特征之间的差距进行策略梯度下降的 IRL 算法。我们的非对抗性方法不需要学习奖励函数,并且可以无缝地与现有的演员-评论家 RL 算法结合使用。令人惊讶的是,我们的方法在无需专家动作标签的状态仅依赖设置中也能工作,而行为克隆(BC)无法解决这一问题。实验证明,我们的方法能够从单个专家演示中学到,并在各种控制任务中实现了更好的性能。