LLM2D

摘要

arXiv:2406.01793v2 宣布类型: 替换-交叉摘要：逆强化学习（IRL）旨在从专家演示中推断出奖励，这一目标源于一种信念，即奖励而非策略是任务最简洁和可转移的描述[Ng等人，2000]。然而，与最优策略相对应的奖励并不是唯一的，因此不清楚根据IRL学习得到的奖励是否在新的转换法则下具有可转移性，其最优策略能与专家真实奖励对应的最优策略对齐。过去的研究仅在完全访问专家策略的假设下解决了这一问题，且仅当从具有相同奖励但不同满足特定条件的转换法则的两名专家处学习时，才能保证可转移性[Rolland等人，2022]。在本文中，我们展示了在仅能访问专家演示这一更实际的情况下，用于完全访问专家策略的条件不能保证在任何转换法则下的可转移性。我们提出使用主角度作为测量转换法则相似性和差异性的更精细度量，而不是二元秩条件。在此基础上，我们建立了两个关键结果：1) 当至少从两名具有足够不同的转换法则的专家处学习时，可转移性的充分条件；2) 在从单个专家处学习时，可转移性针对转换法则局部变化的充分条件。此外，我们还提供了一种可能近似正确的（PAC）算法，并对从多名专家的演示中学习可转移奖励进行了端到端的分析。