摘要
arXiv:2403.11345v2 公告类型: replace-cross
摘要:在本论文中,我们探讨了组内合作但组间存在非零和竞争的代理团队之间的强化学习(RL)。为开发一种可证明实现纳什均衡的RL方法,我们关注线性二次结构。此外,为应对有限人群设置中多代理交互引起的非稳态问题,我们考虑每个团队内代理数无限的情形,即均值场设置。这导致了一种总体收益型线性二次均值场类型游戏(GS-MFTG)。在标准可逆条件下,我们刻画了GS-MFTG的纳什均衡(NE)。然后我们表明,这种MFTG的NE对于每个团队中代理数下限为M的有限人群游戏来说是O(1/M)均衡。这些结构结果推动了多代理后视型自然策略梯度算法(MRNPG)的提出,其中每个团队以后视型的方式独立最小化其累计成本。尽管问题是非凸的,我们通过一个新的问题分解方法——利用逆递归离散时间哈密顿-雅可比-伊斯阿斯(HJI)方程,将问题分解成子问题,证明了所提出的算法通过独立自然策略梯度在线性收敛的情况下可以收敛到全局纳什均衡。理论结果中的数值研究进一步证实了这些结论。