LLM2D

摘要

逆强化学习 (IRL) 的目标是从策略 π 推断奖励函数 R。这个问题由于几个原因而变得困难。首先，通常存在多个与给定策略兼容的奖励函数；这意味着奖励函数只是*部分可识别*的，并且 IRL 包含一定程度的基本模糊性。其次，为了从 π 推断 R，IRL 算法必须拥有一个关于 π 与 R 之间关系的*行为模型*。然而，人类偏好和人类行为之间的真实关系非常复杂，实际上不可能用简单的模型完全捕捉。这意味着实际中的行为模型将是*错误指定的*，这引发了这样的担忧：如果将其应用于现实世界的数据，它可能会导致不合理的推论。在本文中，我们对 IRL 中的部分可识别性和错误指定进行了全面的数学分析。具体来说，我们完全刻画并量化了当前 IRL 文献中最常见的全部行为模型的奖励函数的模糊性。我们还提供了必要的和充分的条件，精确地描述了观察到的演示者策略在导致该模型对奖励函数 R 的错误推断之前，可能与每个标准行为模型有何不同。除此之外，我们还引入了一个连贯的框架来推理 IRL 中的部分可识别性和错误指定，以及一些可以用来轻松推导出新的 IRL 模型的部分可识别性和错误指定鲁棒性，或分析其他类型的奖励学习算法的正式工具。