LLM2D

摘要

arXiv:2502.11949v1 宣告类型: cross 摘要: 我们提出了一种Explicit Policy-Conditioned Value Functions（EPVF）的缩放策略，显著提高了在具有挑战性的连续控制任务上的性能。EPVF学习一个明确依赖于策略参数的价值函数 V(θ)，这使得可以直接基于梯度更新任何策略的参数。然而，当EPVF大规模运行时，它们在策略参数空间中面临参数无限制增长和高效探索的问题。为了解决这些问题，我们利用了基于GPU的仿真器的大规模并行化、大规模批次大小、权重剪辑和缩放扰动。我们的实验结果表明，EPVF可以扩展到解决复杂的任务，例如一个自定义的蚂蚁环境，并能够与当前最先进的深度强化学习（DRL）基线，如近端策略优化（PPO）和软演员-评论家（SAC）展开竞争。我们还进一步探索了之前工作中基于动作的策略参数表示方法和专门的神经网络架构，以有效地处理权重空间特征，这种方法在DRL中之前未曾使用过。