LLM2D

摘要

arXiv:2010.08891v2 公告类型: replace-cross 摘要：我们研究了一种基于优化解决部分表示的MDP的方法，这些MDP是从静态经验数据集中推导出来的。这种方法可以在任何学习表示的基础上应用，并有可能轻松支持多种解决方案目标以及在环境和目标变化时的零样本调整。我们的主要贡献是引入了深度平均带成本MDP（DAC-MDP）并研究了其在离线强化学习中的解法。DAC-MDP是一种非参数模型，可以利用深度表示，并通过引入利用模型中未充分表示的部分的成本来应对数据有限的问题。理论上，我们展示了使DAC-MDP解的性能下界化的条件。我们还在包括基于图像的观测的多个环境中研究了其经验行为。总体而言，实验结果表明，该框架在实践中可以有效工作，并能处理大规模复杂的离线强化学习问题。