LLM2D

摘要

arXiv:2403.08955v3 声明类型: replace-cross 摘要：强化学习（RL）在各种应用中展现了卓越的表现，使自主代理能够通过与环境的交互学习最优策略。然而，传统RL框架在迭代效率和鲁棒性方面常常面临挑战。具有预期回报和风险度量结合的鲁棒敏感政策梯度方法因其能够生成更鲁棒的策略而得到了探索，但其迭代复杂性仍然很大程度上未被研究。在本文中，我们对鲁棒敏感政策梯度方法进行了严格的迭代复杂性分析，重点关注使用指数效用函数的REINFORCE算法。我们建立了在达到$\epsilon$-近似一阶稳定点（FOSP）时的迭代复杂度为 $\mathcal{O}(\epsilon^{-2})$。此外，我们探讨了鲁棒敏感算法是否能够比其无风险等价物实现更好的迭代复杂性。我们的分析表明，鲁棒敏感的REINFORCE算法可能更快地收敛。为了验证我们的分析，我们在CartPole、MiniGrid和Robot Navigation等多个环境中对无风险和鲁棒敏感的REINFORCE算法的学习性能和收敛效率进行了实证评估。实证结果证实，与无风险等价物相比，风险规避情况可以更快地收敛和稳定。更多详细信息请参阅我们的网站 https://ruiiu.github.io/riskrl。