LLM2D

摘要

arXiv:2312.11752v5 宣布类型: replace-cross 摘要：扩散模型已经成为行为克隆和离线 reinforcement learning 中表示行为策略的一种流行选择。这归功于它们自然具有的优化连续空间中表达性强的分布类的能力。然而，以往的工作未能利用扩散模型的得分结构，而是利用简单的行为克隆项来训练行为策略，这在行为-批评家设置中限制了它们的能力。在本文中，我们提出了一个理论框架，将扩散模型策略的结构与学习到的 Q 函数联系起来，通过将策略得分结构与 Q 函数的动作梯度联系起来。我们关注非策略强化学习，并提出了一种基于该理论的新策略更新方法，我们称之为 Q-得分匹配。值得注意的是，该算法仅需要通过去噪模型而非整个扩散模型评估进行求导，通过 Q-得分匹配收敛的策略在连续域中是隐式多模式和探索性的。我们在模拟环境中进行了实验，以展示我们提出的方法的可行性，并将其与流行的基线方法进行了比较。源代码可在项目网站上获取：https://michaelpsenka.io/qsm。