LLM2D

摘要

arXiv:2407.17226v4 宣告类型: replace-cross 摘要：我们研究了一类连续时间线性-二次（LQ）控制问题的强化学习（RL），其中状态是标量值的，运行控制奖励不存在，但状态过程的波动性取决于状态变量和控制变量。我们采用一种模型无关的方法，既不需要知道模型参数也不需要估计参数，并设计了一个RL算法来直接学习最优策略参数。我们的主要贡献包括介绍了一个探索计划和对所提出算法的遗憾分析。我们提供了策略参数向最优参数收敛的速度，并证明所提出的算法在对数因子范围内达到了遗憾边界 $O(N^{\frac{3}{4}})$，其中 $N$ 是学习回合的数量。我们进行了模拟研究来验证理论结果，并展示了所提算法的有效性和可靠性。我们还对我们的方法与适应状态和控制依赖波动性的最近基于模型的随机LQ RL研究进行了数值比较，证明了前者在遗憾边界方面的更好性能。