LLM2D

摘要

arXiv:2505.00663v1 宣告类型：交叉摘要：我们介绍了Wasserstein策略优化（WPO），这是一种在连续动作空间中进行强化学习的演员-评论家算法。WPO 可以被视为 Wasserstein 梯度流的近似，该流应用于所有策略的空间，并投影到有限维参数空间（例如，神经网络的权重），从而导致一个简单且完全通用的封闭形式更新。该算法结合了许多确定性和经典策略梯度方法的特性。就像确定性策略梯度一样，它利用了对动作价值函数关于动作梯度的知识。像经典策略梯度一样，它可以应用于具有任意动作分布的策略——而无需使用参数化技巧。我们在DeepMind控制套件和一个磁约束聚变任务上展示了结果，并与现有的先进连续控制方法进行了比较，结果表现优异。