LLM2D

摘要

我们研究了策略训练和部署环境不同的非动力强化学习 (RL)。为了处理这种环境扰动，我们专注于在分布式鲁棒马尔可夫决策过程 (DRMDP) 框架下学习对转移动力学不确定性鲁棒的策略，其中标称和扰动动力学是线性马尔可夫决策过程。我们提出了一种新的算法 We-DRIVE-U，它具有平均次优性 $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$，其中 $K$ 是情节数，$H$ 是时间范围长度，$d$ 是特征维度，$\rho$ 是不确定性水平。该结果将现有技术水平提高了 $\mathcal{O}(dH/\min\{1/\rho,H\})$。我们还构建了一个新的困难实例，并推导出该设置中的第一个信息论下界，这表明我们的算法对于任何不确定性水平 $\rho\in(0,1]$ 都是近似最优的，最多为 $\mathcal{O}(\sqrt{H})$。我们的算法还具有“罕见切换”设计，因此只需要 $\mathcal{O}(dH\log(1+H^2K))$ 次策略切换和 $\mathcal{O}(d^2H\log(1+H^2K))$ 次调用来解决对偶优化问题，这显着提高了现有 DRMDP 算法的计算效率，其策略切换和预言机复杂度均为 $\mathcal{O}(K)$。