LLM2D

摘要

在具有庞大或无限状态和动作空间的环境中，设计样本效率高且计算可行的强化学习 (RL) 算法尤其具有挑战性。本文通过提出一种针对马尔可夫决策过程 (MDP) 的高效算法，推动了这一努力，其中任何策略的状态-动作值函数在给定特征映射中是线性的。这种具有挑战性的设置可以模拟具有无限状态和动作的环境，严格概括了经典的线性 MDP，并且目前在在线访问 MDP 的情况下缺乏计算效率高的算法。具体来说，我们介绍了一种新的 RL 算法，该算法能够在该设置中有效地找到近似最优策略，使用数量级为问题参数的多项式的集数和对成本敏感分类 (CSC) 预言机的调用次数。值得注意的是，当特征维数恒定时，我们的 CSC 预言机可以有效地实现，这比最先进的方法有了明显改进，后者需要解决具有水平数量变量的非凸问题，并且会产生水平指数级的计算成本。