LLM2D
Wasserstein 政策优化
Wasserstein Policy Optimization
作者: David Pfau, Ian Davies, Diana Borsa, Joao G. M. Araujo, Brendan Tracey, Hado van Hasselt
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00663v1

摘要

arXiv:2505.00663v1 宣告类型:交叉 摘要:我们介绍了Wasserstein策略优化(WPO),这是一种在连续动作空间中进行强化学习的演员-评论家算法。WPO 可以被视为 Wasserstein 梯度流的近似,该流应用于所有策略的空间,并投影到有限维参数空间(例如,神经网络的权重),从而导致一个简单且完全通用的封闭形式更新。该算法结合了许多确定性和经典策略梯度方法的特性。就像确定性策略梯度一样,它利用了对动作价值函数关于动作梯度的知识。像经典策略梯度一样,它可以应用于具有任意动作分布的策略——而无需使用参数化技巧。我们在DeepMind控制套件和一个磁约束聚变任务上展示了结果,并与现有的先进连续控制方法进行了比较,结果表现优异。