LLM2D

摘要

我们将网络通信引入到平均场博弈框架中，特别是针对 $N$ 个去中心化智能体沿着单个非情节性运行的经验系统进行学习的无预言机设置。我们证明了我们的架构具有样本保证，其界限介于集中式学习和独立学习情况之间。我们提供了这些界限差异的阶数，以及网络结构和通信轮数，并贡献了策略更新稳定性保证。我们讨论了三种理论算法的样本保证在实践中并没有真正导致收敛。因此，我们在实践设置中，理论参数无法观测（导致 Q 函数估计不佳）的情况下，展示了我们的通信方案在独立情况下（有时甚至在集中式情况下）显著加速了收敛，而无需依赖于集中式学习者的假设。我们对所有三种理论算法贡献了进一步的实践增强，使我们能够展示它们的第一个经验演示。我们的实验证实，我们可以消除算法的几个理论假设，并展示了我们的新网络通信带来的经验收敛优势。我们还表明，与集中式和独立方案相比，网络方法在应对意外学习失败和群体规模变化方面具有显著优势。