摘要
我们研究了一类扩散过程的连续时间线性-二次(LQ)控制问题的强化学习(RL),其中状态是标量值,运行控制奖励不存在,但状态过程的波动性取决于状态和控制变量。我们采用一种不依赖于模型参数知识或其估计的无模型方法,并设计了一种演员-评论家算法,以直接学习最佳策略参数。我们的主要贡献包括引入探索计划和对所提出算法的后悔分析。我们提供了策略参数收敛到最优值的收敛速度,并证明该算法在学习回合数为 $N$ 的情况下,达到了 $O(N^{\frac{3}{4}})$ 的后悔界限,附加一个对数因子。我们进行了模拟研究以验证理论结果,并展示了所提出算法的有效性和可靠性。我们还进行了数值比较,将我们的方法与最近的模型基础随机LQ RL研究在状态和控制依赖波动性设置下进行比较,展示了前者在后悔界限方面的更好性能。