LLM2D
分布式鲁棒非动态强化学习的上界和下界
Upper and Lower Bounds for Distributionally Robust Off-Dynamics Reinforcement Learning
作者: Zhishuai Liu, Weixin Wang, Pan Xu
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.20521v1

摘要

我们研究了策略训练和部署环境不同的非动力强化学习 (RL)。为了处理这种环境扰动,我们专注于在分布式鲁棒马尔可夫决策过程 (DRMDP) 框架下学习对转移动力学不确定性鲁棒的策略,其中标称和扰动动力学是线性马尔可夫决策过程。我们提出了一种新的算法 We-DRIVE-U,它具有平均次优性 $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$,其中 $K$ 是情节数,$H$ 是时间范围长度,$d$ 是特征维度,$\rho$ 是不确定性水平。该结果将现有技术水平提高了 $\mathcal{O}(dH/\min\{1/\rho,H\})$。我们还构建了一个新的困难实例,并推导出该设置中的第一个信息论下界,这表明我们的算法对于任何不确定性水平 $\rho\in(0,1]$ 都是近似最优的,最多为 $\mathcal{O}(\sqrt{H})$。我们的算法还具有“罕见切换”设计,因此只需要 $\mathcal{O}(dH\log(1+H^2K))$ 次策略切换和 $\mathcal{O}(d^2H\log(1+H^2K))$ 次调用来解决对偶优化问题,这显着提高了现有 DRMDP 算法的计算效率,其策略切换和预言机复杂度均为 $\mathcal{O}(K)$。