LLM2D

摘要

分布鲁棒马尔可夫决策过程 (DRMDP) 是一个流行的框架，用于通过学习对约束集内最坏情况转移动态具有鲁棒性的策略来解决强化学习中的动态变化问题。然而，求解其对偶优化预言机带来了巨大的挑战，限制了理论分析和计算效率。最近提出的鲁棒正则化马尔可夫决策过程 (RRMDP) 用值函数上的正则化项代替了不确定性集约束，从而提高了可扩展性和理论见解。然而，现有的 RRMDP 方法依赖于非结构化正则化，通常会导致过于保守的策略，因为它考虑了不现实的转移。为了解决这些问题，我们提出了一种新的框架，即 d 维矩形线性鲁棒正则化马尔可夫决策过程 (d-RRMDP)，它在转移核和正则化中引入了线性潜在结构。对于离线强化学习设置（代理从标称环境中预先收集的数据集中学习鲁棒策略），我们开发了一系列算法，即鲁棒正则化悲观值迭代 (R2PVI)，它采用线性函数逼近和基于 f 散度的转移核正则化项。我们提供了 R2PVI 策略次优差距的实例相关上界，表明这些上界取决于数据集覆盖鲁棒可容许转移下最优鲁棒策略访问的状态-动作空间的程度。通过信息论下界进一步证明了该项对于 d-RRMDP 的根本性。最后，数值实验验证了 R2PVI 学习鲁棒策略并且比约束 DRMDP 方法计算效率更高。