摘要
arXiv:2504.11997v1 通知类型: 交叉
摘要: 我们研究了具有线性MDP的无限展望期平均奖励设置中的强化学习。先前的工作通过将平均奖励设置近似为折扣设置,并采用基于价值迭代的算法,通过裁剪来限制价值函数的跨度以提高统计效率来解决这个问题。然而,裁剪过程需要在整个状态空间中计算价值函数的最小值,而在线性MDP设置中,状态空间可能是庞大的,甚至是无限的,这种计算是不可行的。在本文中,我们引入了一种具有高效裁剪操作的价值迭代方法,该方法只需要在算法访问的状态集中计算价值函数的最小值。我们的算法与先前的工作具有相同的后悔上限,同时在计算上是高效的,其计算复杂度与状态空间的大小无关。