LLM2D

摘要

arXiv:2503.20285v1 宣布类型: cross 摘要: 基于模型的离线强化学习(Offline RL)通过从离线数据集中构建环境模型来进行保守的策略优化。现有的方法主要集中在通过集成模型学习状态转换，并通过保守估计回放来减轻外推错误。然而，静态的数据使得开发出稳健的策略变得具有挑战性，且离线代理无法访问环境来收集新的数据。为了解决这些挑战，我们引入了基于模型的离线强化学习与对抗数据增强(MORAL)。在MORAL中，我们通过使用对抗数据增强来替代固定的时序回放，采用交替采样与集成模型结合的方式丰富训练数据。具体来说，这一对抗过程动态地选择针对策略的集成模型进行有偏采样，减轻了固定模型的乐观估计，从而稳健地扩大训练数据以优化策略。此外，还整合了一种差分因子到对抗过程中，以确保外推误差的最小化。这种数据增强优化能够适应各种离线任务，无需调整回放时序长度，显示出显著的应用潜力。广泛的D4RL基准实验表明，MORAL在策略学习和样本效率方面优于其他基于模型的离线RL方法。