LLM2D

摘要

本文研究了基于一般模型函数逼近的平均场控制 (MFC) 和平均场博弈 (MFG) 中强化学习的基本统计效率。我们引入了一个名为平均场模型基于回避维数 (MF-MBED) 的新概念，它刻画了平均场模型类的内在复杂性。我们证明了丰富的平均场 RL 问题表现出低 MF-MBED。此外，我们提出了基于最大似然估计的算法，该算法可以为 MFC 返回一个 $\epsilon$-最优策略或为 MFG 返回一个 $\epsilon$-纳什均衡策略。总的样本复杂度仅与 MF-MBED 多项式相关，这可能远低于状态-动作空间的大小。与之前的工作相比，我们的结果仅需要最小的假设，包括可实现性和 Lipschitz 连续性。