LLM2D

摘要

强化学习（RL）在各种应用中表现出色，使自主代理能够通过与环境的交互学习最优策略。然而，传统的RL框架在迭代复杂性和鲁棒性方面经常面临挑战。风险敏感RL通过平衡预期回报和风险，已被探索其潜在的产生概率鲁棒策略的能力，但其迭代复杂性分析仍未充分探索。在本研究中，我们对风险敏感策略梯度方法进行了彻底的迭代复杂性分析，重点研究了REINFORCE算法并采用了指数效用函数。我们获得了达到$\epsilon$-近似一阶平稳点（FOSP）的迭代复杂性为$\cO(\epsilon^{-2})$。我们探讨了风险敏感算法是否可能比其风险中性对应算法实现更好的迭代复杂性。我们的理论分析表明，风险敏感REINFORCE可能需要较少的迭代次数来收敛。这导致迭代复杂性提高，因为采用指数效用并不需要在每次迭代中增加额外的计算。我们描述了风险敏感算法可能实现更好迭代复杂性的条件。我们的模拟结果也验证了，与风险中性对应算法相比，风险厌恶情况下在41%的回合后可以更快地收敛和稳定。