摘要
逆强化学习 (IRL) 的目标是从策略 π 推断奖励函数 R。这个问题由于几个原因而变得困难。首先,通常存在多个与给定策略兼容的奖励函数;这意味着奖励函数只是*部分可识别*的,并且 IRL 包含一定程度的基本模糊性。其次,为了从 π 推断 R,IRL 算法必须拥有一个关于 π 与 R 之间关系的*行为模型*。然而,人类偏好和人类行为之间的真实关系非常复杂,实际上不可能用简单的模型完全捕捉。这意味着实际中的行为模型将是*错误指定的*,这引发了这样的担忧:如果将其应用于现实世界的数据,它可能会导致不合理的推论。在本文中,我们对 IRL 中的部分可识别性和错误指定进行了全面的数学分析。具体来说,我们完全刻画并量化了当前 IRL 文献中最常见的全部行为模型的奖励函数的模糊性。我们还提供了必要的和充分的条件,精确地描述了观察到的演示者策略在导致该模型对奖励函数 R 的错误推断之前,可能与每个标准行为模型有何不同。除此之外,我们还引入了一个连贯的框架来推理 IRL 中的部分可识别性和错误指定,以及一些可以用来轻松推导出新的 IRL 模型的部分可识别性和错误指定鲁棒性,或分析其他类型的奖励学习算法的正式工具。