LLM2D

摘要

arXiv:2504.05585v1 类型: cross 摘要：强化学习(RL)中的 episodic 任务经常由于稀疏的奖励信号和高维的状态空间而面临挑战，这妨碍了高效的学习。此外，这些任务通常包含隐藏的“陷阱状态”——不可逆的失败状态，会阻止任务的完成，但不会提供明确的负面奖励来引导代理避免重复的错误。为了解决这些问题，我们提出了一种时间加权对比奖励学习(TW-CRL)，这是一种逆向强化学习(IRL)框架，它利用成功和失败的演示。通过结合时间信息，TW-CRL 学习一个密集的奖励函数，该函数能够识别与成功或失败相关的关键状态。这种方法不仅使代理能够避开陷阱状态，还鼓励在简单模仿专家轨迹的基础上进行有意义的探索。在导航任务和机器人操作基准测试上的实证评估表明，TW-CRL 超越了现有方法，实现了更高的效率和鲁棒性。