LLM2D

摘要

arXiv:2407.16602v2 Announce Type: replace-cross 摘要：我们将功能加速应用于政策镜像梯度(PMD)算法的一般家族，这些算法涵盖了强化学习(RL)中一系列新颖且基本的方法。利用对偶性，我们提出了一种基于动量的PMD更新方法。通过功能途径，我们的方法与策略参数化无关，并适用于大规模优化，将以前的动量应用作为策略参数级别的特殊情况包含在内。我们从理论上分析了该方法的几种性质，并通过数值消融研究进行了补充，该研究旨在说明与这些算法设计选择相对应的价值多面体上的策略优化动力学。我们进一步数值地描述了几种对功能加速有重要意义的问题设置特征，并最后探究了对学习机制的影响。