摘要
arXiv:2504.13241v2 宣告类型: 替换-交叉
摘要: 从对手表现的行为中推断对手的目标对于网络安全、军事和策略游戏等领域中的反制规划和非合作多智能体系统至关重要。基于最大熵原则的深度逆强化学习(Deep Inverse Reinforcement Learning, DIRL)方法显示出恢复对手目标的潜力,但这些方法通常是离线的,需要使用梯度下降和大规模批次大小进行第一阶更新,这限制了它们在实时场景中的应用。我们提出了一种在线递归深度逆强化学习(Relative Deep Inverse Reinforcement Learning, RDIRL)方法,用于恢复控制对手行为和目标的成本函数。具体而言,我们使用顺序二次牛顿更新(类似于扩展卡尔曼滤波器(EKF))来最小化标准引导成本学习(Guided Cost Learning, GCL)目标的上界,从而得到一个收敛速度快的学习算法。实验表明,RDIRL 能够在标准和对抗基准任务中恢复专家代理的成本函数和奖励函数。在基准任务上的实验显示,我们提出的方法在性能上优于几种领先的逆强化学习算法。