LLM2D

摘要

由于高维状态空间的存在，视觉强化学习 (RL) 在利用和探索方面面临着重大挑战，导致样本效率低下和训练不稳定。虽然一致性模型作为一种时间效率高的扩散模型已在基于在线状态的 RL 中得到验证，但它是否可以扩展到视觉 RL 仍然是一个开放性问题。本文研究了非平稳分布和演员-评论家框架对在线 RL 中一致性策略的影响，发现一致性策略在训练过程中不稳定，尤其是在具有高维状态空间的视觉 RL 中。为此，我们建议使用基于样本的熵正则化来稳定策略训练，并提出了一种具有优先级近端经验正则化的一致性策略 (CP3ER) 来提高样本效率。CP3ER 在 DeepMind 控制套件和 Meta-world 的 21 个任务中取得了新的最先进 (SOTA) 性能。据我们所知，CP3ER 是第一个将扩散/一致性模型应用于视觉 RL 的方法，并展示了一致性模型在视觉 RL 中的潜力。更多可视化结果请访问 https://jzndd.github.io/CP3ER-Page/。