LLM2D

摘要

离线强化学习 (RL) 通过利用预收集的数据来学习最优策略，从而解决顺序决策问题，而无需与环境交互。然而，由于人们很少明确地知道奖励，并且难以事后推断奖励，因此离线强化学习一直不太实用。本文表明，即使没有明确的奖励或动作标签，模仿代理仍然可以仅通过观察专家来学习期望的行为。在我们的方法 AILOT（基于最优传输的对齐模仿学习）中，我们使用意图的形式对状态进行特殊表示，该意图包含数据中成对的空间距离。基于这种表示，我们通过专家轨迹和代理轨迹之间的最优传输距离来定义内在奖励函数。我们报告了 AILOT 在 D4RL 基准测试中优于最先进的离线模仿学习算法，并且通过在稀疏奖励任务中重新标记密集奖励来提高其他离线 RL 算法的性能。