LLM2D

摘要

近年来，具有通用效用的强化学习因其能够统一多个问题（包括模仿学习、纯探索和安全强化学习）而备受关注。然而，先前在统一方式解决此通用问题的工作主要集中在表格环境中。考虑到更大的状态-动作空间，这是一种限制，因为在策略优化过程中需要估计占用度量。在本工作中，我们解决了这个问题，并提出使用最大似然估计（MLE）在函数逼近类中近似占用度量。我们提出了一种简单的策略梯度算法（PG-OMA），其中一个演员更新策略参数以最大化通用效用目标，而一个评论家使用 MLE 近似占用度量。我们提供了 PG-OMA 的样本复杂度分析，表明我们的占用度量估计误差仅随函数逼近类的维度缩放，而不是状态动作空间的大小。在适当的假设下，我们分别为非凹和凹通用效用建立了所提出的 PG-OMA 算法的一阶平稳性和全局最优性能边界。我们用有希望的实验结果补充了我们的方法论和理论发现，这些结果表明了与现有的基于表格计数的方法相比，我们方法的可扩展性潜力。