摘要
arXiv:2409.14412v1 公告类型: 交叉 摘要: 离线强化学习允许在来自实际部署的数据上训练强化学习模型。然而,它仅限于选择训练数据中存在的行为组合中的最佳组合。相比之下,尝试复制实际环境的模拟环境可以替代实际数据,但这种方法受限于模拟与现实之间的差距,导致偏差。为了兼顾两者的优势,我们提出了一种结合不完美的模拟环境和目标环境数据的方法,以训练离线强化学习策略。我们的实验表明,所提出的方法在多样且具有挑战性的动态场景中优于最先进的CQL、MOPO和COMBO方法,并在各种实验条件下表现出稳健的行为。结果表明,即使在无法直接与现实世界互动的情况下,使用模拟器生成的数据也能有效增强离线策略学习,尽管存在模拟与现实之间的差距。