LLM2D

摘要

arXiv:2501.02330v2 公告类型: replace-cross 摘要: 在本文中，我们提出了一种从离线演示直接学习奖励函数的新方法。与传统的逆强化学习(IRL)不同，我们的方法将奖励函数与学习者的策略分开，消除了两者之间通常所需的对抗性交互。这导致了一个更稳定和高效的训练过程。我们的奖励函数称为SR-Reward，它利用后继表示(SR)来根据演示策略和转移动态下预期的未来状态的访问情况编码一个状态。通过利用贝尔曼方程，SR-Reward可以在无需修改现有训练管道的情况下与大多数强化学习(RL)算法同时学习，从而实现与其他RL算法的无缝集成。我们还引入了一种负采样策略，通过减少离分布数据的奖励来减轻过度估计错误，从而增强鲁棒性。这种策略内在地为采用所学奖励的RL算法引入了保守偏差。我们在D4RL基准上评估了我们的方法，与能够访问真实奖励和仿生克隆(BC)等imitation learning(模仿学习)技术的离线RL算法相比，取得了竞争力的结果。此外，我们在数据大小和质量上的消融研究揭示了SR-Reward作为真实奖励代理的优势和局限性。