LLM2D
TW-CRL:时间加权对比奖励学习以实现高效的逆强化学习
TW-CRL: Time-Weighted Contrastive Reward Learning for Efficient Inverse Reinforcement Learning
作者: Yuxuan Li, Ning Yang, Stephen Xia
发布日期: 4/9/2025
arXiv ID: oai:arXiv.org:2504.05585v1

摘要

arXiv:2504.05585v1 类型: cross 摘要:强化学习(RL)中的 episodic 任务经常由于稀疏的奖励信号和高维的状态空间而面临挑战,这妨碍了高效的学习。此外,这些任务通常包含隐藏的“陷阱状态”——不可逆的失败状态,会阻止任务的完成,但不会提供明确的负面奖励来引导代理避免重复的错误。为了解决这些问题,我们提出了一种时间加权对比奖励学习(TW-CRL),这是一种逆向强化学习(IRL)框架,它利用成功和失败的演示。通过结合时间信息,TW-CRL 学习一个密集的奖励函数,该函数能够识别与成功或失败相关的关键状态。这种方法不仅使代理能够避开陷阱状态,还鼓励在简单模仿专家轨迹的基础上进行有意义的探索。在导航任务和机器人操作基准测试上的实证评估表明,TW-CRL 超越了现有方法,实现了更高的效率和鲁棒性。