LLM2D
线性可实现值函数 MDP 的样本和先知高效强化学习
Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions
作者: Zakaria Mhammedi
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.04840v2

摘要

在具有庞大或无限状态和动作空间的环境中,设计样本效率高且计算可行的强化学习 (RL) 算法尤其具有挑战性。本文通过提出一种针对马尔可夫决策过程 (MDP) 的高效算法,推动了这一努力,其中任何策略的状态-动作值函数在给定特征映射中是线性的。这种具有挑战性的设置可以模拟具有无限状态和动作的环境,严格概括了经典的线性 MDP,并且目前在在线访问 MDP 的情况下缺乏计算效率高的算法。具体来说,我们介绍了一种新的 RL 算法,该算法能够在该设置中有效地找到近似最优策略,使用数量级为问题参数的多项式的集数和对成本敏感分类 (CSC) 预言机的调用次数。值得注意的是,当特征维数恒定时,我们的 CSC 预言机可以有效地实现,这比最先进的方法有了明显改进,后者需要解决具有水平数量变量的非凸问题,并且会产生水平指数级的计算成本。