摘要
arXiv:2503.20285v1 宣布类型: cross
摘要: 基于模型的离线强化学习(Offline RL)通过从离线数据集中构建环境模型来进行保守的策略优化。现有的方法主要集中在通过集成模型学习状态转换,并通过保守估计回放来减轻外推错误。然而,静态的数据使得开发出稳健的策略变得具有挑战性,且离线代理无法访问环境来收集新的数据。为了解决这些挑战,我们引入了基于模型的离线强化学习与对抗数据增强(MORAL)。在MORAL中,我们通过使用对抗数据增强来替代固定的时序回放,采用交替采样与集成模型结合的方式丰富训练数据。具体来说,这一对抗过程动态地选择针对策略的集成模型进行有偏采样,减轻了固定模型的乐观估计,从而稳健地扩大训练数据以优化策略。此外,还整合了一种差分因子到对抗过程中,以确保外推误差的最小化。这种数据增强优化能够适应各种离线任务,无需调整回放时序长度,显示出显著的应用潜力。广泛的D4RL基准实验表明,MORAL在策略学习和样本效率方面优于其他基于模型的离线RL方法。