LLM2D

摘要

arXiv:2504.13241v1 宣告类型: cross 摘要: 从敌方表现出的行为中推断出敌方的目标对于网络安全、军事和策略游戏等领域的反规划及非合作多智能体系统非常重要。基于最大熵原则的深度逆强化学习(IRL)方法显示出在恢复敌方目标方面的潜力，但这些方法通常是离线的，需要大规模批次梯度下降，依赖于一阶更新，这限制了它们在实时场景中的应用。我们提出了一种在线递归深度逆强化学习(RDIRL)方法来恢复管理敌方行为和目标的成本函数。具体地，我们使用顺序二次牛顿更新来最小化标准导向成本学习(GCL)目标的一个上界，类似于扩展卡尔曼滤波器(EKF)，从而得到一个快速（即收敛速度较快）的学习算法。我们证明，RDIRL能够在标准和对抗基准任务中恢复专家智能体的成本函数和奖励函数。基准任务上的实验表明，我们提出的这种方法优于几个领先的IRL算法。