摘要
arXiv:2502.06491v1 类型: cross
摘要: 基于模型的离线强化学习(MORL)旨在通过利用从现有数据集派生的动力学模型来学习策略。通过保守地量化动力学模型,现有的大多数MORL工作生成的轨迹近似于真实数据分布,以便利用当前信息(例如,在时间步t的状态和动作)来促进策略学习。然而,这些工作忽略了历史信息对环境动力学的影响,导致生成的轨迹不可靠,可能与真实数据分布不一致。本文提出了一种新的MORL算法——可靠性保证的变换器(RT),该算法通过计算生成轨迹的累计可靠性(即,使用加权变分距离远离真实数据)来消除不可靠的轨迹。此外,通过采样具有高奖励的候选动作,RT可以有效地从现有的离线数据中生成高回报的轨迹。我们在政策学习中理论上证明了RT的性能保证,并在多个基准任务上与最先进的基于模型的方法进行了实验证明其有效性。