LLM2D
基于一般函数逼近的平均场强化学习的统计效率
On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation
作者: Jiawei Huang, Batuhan Yardim, Niao He
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2305.11283v5

摘要

本文研究了基于一般模型函数逼近的平均场控制 (MFC) 和平均场博弈 (MFG) 中强化学习的基本统计效率。我们引入了一个名为平均场模型基于回避维数 (MF-MBED) 的新概念,它刻画了平均场模型类的内在复杂性。我们证明了丰富的平均场 RL 问题表现出低 MF-MBED。此外,我们提出了基于最大似然估计的算法,该算法可以为 MFC 返回一个 $\epsilon$-最优策略或为 MFG 返回一个 $\epsilon$-纳什均衡策略。总的样本复杂度仅与 MF-MBED 多项式相关,这可能远低于状态-动作空间的大小。与之前的工作相比,我们的结果仅需要最小的假设,包括可实现性和 Lipschitz 连续性。