LLM2D

摘要

arXiv:2409.14412v1 公告类型: 交叉摘要: 离线强化学习允许在来自实际部署的数据上训练强化学习模型。然而，它仅限于选择训练数据中存在的行为组合中的最佳组合。相比之下，尝试复制实际环境的模拟环境可以替代实际数据，但这种方法受限于模拟与现实之间的差距，导致偏差。为了兼顾两者的优势，我们提出了一种结合不完美的模拟环境和目标环境数据的方法，以训练离线强化学习策略。我们的实验表明，所提出的方法在多样且具有挑战性的动态场景中优于最先进的CQL、MOPO和COMBO方法，并在各种实验条件下表现出稳健的行为。结果表明，即使在无法直接与现实世界互动的情况下，使用模拟器生成的数据也能有效增强离线策略学习，尽管存在模拟与现实之间的差距。