摘要
arXiv:2502.04778v1 宣告类型: cross
摘要: 无监督强化学习(RL)的主要关注点是管理出分布动作危险利用的风险。实现这一目标的有效方法是通过行为正则化,通过引入约束来扩展传统的RL目标,这些约束强制策略保持接近行为策略。然而,现有行为正则化RL的相关文献主要集中在显式策略参数化上,例如高斯策略。因此,尚不清楚如何将这种框架扩展到更高级的策略参数化,例如扩散模型。在本文中,我们提出了BDPO,一种针对基于扩散的策略的原理上行为正则化RL框架,从而结合了扩散策略的强大表示能力和正则化提供的鲁棒性。我们方法的关键成分是通过计算扩散轨迹上逆时转移核中累积的偏差来计算Kullback-Leibler (KL)正则化。通过集成正则化,我们开发了一种高效的双时间尺度演员-评论家RL算法,在遵守行为约束的同时生成最优策略。在合成2D任务和来自D4RL基准的连续控制任务上的全面评估验证了其有效性和优越性能。