LLM2D

摘要

我们研究了一类扩散过程的连续时间线性-二次（LQ）控制问题的强化学习（RL），其中状态是标量值，运行控制奖励不存在，但状态过程的波动性取决于状态和控制变量。我们采用一种不依赖于模型参数知识或其估计的无模型方法，并设计了一种演员-评论家算法，以直接学习最佳策略参数。我们的主要贡献包括引入探索计划和对所提出算法的后悔分析。我们提供了策略参数收敛到最优值的收敛速度，并证明该算法在学习回合数为 $N$ 的情况下，达到了 $O(N^{\frac{3}{4}})$ 的后悔界限，附加一个对数因子。我们进行了模拟研究以验证理论结果，并展示了所提出算法的有效性和可靠性。我们还进行了数值比较，将我们的方法与最近的模型基础随机LQ RL研究在状态和控制依赖波动性设置下进行比较，展示了前者在后悔界限方面的更好性能。