LLM2D

摘要

arXiv:2504.11997v1 通知类型: 交叉摘要: 我们研究了具有线性MDP的无限展望期平均奖励设置中的强化学习。先前的工作通过将平均奖励设置近似为折扣设置，并采用基于价值迭代的算法，通过裁剪来限制价值函数的跨度以提高统计效率来解决这个问题。然而，裁剪过程需要在整个状态空间中计算价值函数的最小值，而在线性MDP设置中，状态空间可能是庞大的，甚至是无限的，这种计算是不可行的。在本文中，我们引入了一种具有高效裁剪操作的价值迭代方法，该方法只需要在算法访问的状态集中计算价值函数的最小值。我们的算法与先前的工作具有相同的后悔上限，同时在计算上是高效的，其计算复杂度与状态空间的大小无关。