LLM2D

摘要

arXiv:2406.01793v2 逆强化学习类型：replace-cross 摘要：逆强化学习（IRL）旨在从专家示例中推断奖励，其动机是奖励而不是策略是任务最简洁和可转移的描述[Ng等人，2000]。然而，对应于最优策略的奖励不是唯一的，这使得不清楚利用IRL学习到的奖励在新的转移法则下是否可转移，其最优策略是否与专家真实奖励对应的最优策略对齐。过去的研究所解决的这一问题是在能够完全访问专家策略的情况下，当从具有相同奖励但满足特定秩条件的两个专家处学习时，保证了转移性[Rolland等人，2022]。在这项工作中，我们证明了在能够完全访问专家策略的情况下开发的条件并不能保证在只能访问专家示例的更实际场景中可转移性。我们不再使用二元秩条件，而是提出主角度作为更精确的转移法则之间相似性和差异性的度量。基于此，我们建立了两个关键结果：1）在从至少两个具有足够不同转移法则的专家处学习时，转向任何转移法则的一个充分条件，以及2）在从单个专家处学习时，转向转移法则局部变化的一个充分条件。此外，我们还提供了可能正确（PAC）算法，并对从多位专家的示例中学习可转移奖励进行了端到端分析。