摘要
近年来,具有通用效用的强化学习因其能够统一多个问题(包括模仿学习、纯探索和安全强化学习)而备受关注。然而,先前在统一方式解决此通用问题的工作主要集中在表格环境中。考虑到更大的状态-动作空间,这是一种限制,因为在策略优化过程中需要估计占用度量。在本工作中,我们解决了这个问题,并提出使用最大似然估计(MLE)在函数逼近类中近似占用度量。我们提出了一种简单的策略梯度算法(PG-OMA),其中一个演员更新策略参数以最大化通用效用目标,而一个评论家使用 MLE 近似占用度量。我们提供了 PG-OMA 的样本复杂度分析,表明我们的占用度量估计误差仅随函数逼近类的维度缩放,而不是状态动作空间的大小。在适当的假设下,我们分别为非凹和凹通用效用建立了所提出的 PG-OMA 算法的一阶平稳性和全局最优性能边界。我们用有希望的实验结果补充了我们的方法论和理论发现,这些结果表明了与现有的基于表格计数的方法相比,我们方法的可扩展性潜力。