LLM2D
从奖励学习扩散模型策略 via Q-分数匹配
Learning a Diffusion Model Policy from Rewards via Q-Score Matching
作者: Michael Psenka, Alejandro Escontrela, Pieter Abbeel, Yi Ma
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2312.11752v5

摘要

arXiv:2312.11752v5 宣布类型: replace-cross 摘要:扩散模型已经成为行为克隆和离线 reinforcement learning 中表示行为策略的一种流行选择。这归功于它们自然具有的优化连续空间中表达性强的分布类的能力。然而,以往的工作未能利用扩散模型的得分结构,而是利用简单的行为克隆项来训练行为策略,这在行为-批评家设置中限制了它们的能力。在本文中,我们提出了一个理论框架,将扩散模型策略的结构与学习到的 Q 函数联系起来,通过将策略得分结构与 Q 函数的动作梯度联系起来。我们关注非策略强化学习,并提出了一种基于该理论的新策略更新方法,我们称之为 Q-得分匹配。值得注意的是,该算法仅需要通过去噪模型而非整个扩散模型评估进行求导,通过 Q-得分匹配收敛的策略在连续域中是隐式多模式和探索性的。我们在模拟环境中进行了实验,以展示我们提出的方法的可行性,并将其与流行的基线方法进行了比较。源代码可在项目网站上获取:https://michaelpsenka.io/qsm。