摘要
arXiv:2409.04613v5 宣告类型: replace-cross
摘要:马尔可夫游戏提供了一种强大的框架,用于建模动态环境中的战略性多智能体交互。传统上,在这些设置中,去中心化学习算法的收敛性质仅限于特殊情况,例如马尔可夫零和博弈和潜在博弈,这些情况不能完全捕捉现实世界的交互。在本文中,我们通过探讨一般和博弈马尔可夫游戏中的学习算法的渐近性质来弥补这一缺口。具体而言,我们关注一种去中心化算法,其中每个智能体采用异步步长的演员-评论家学习动态。这种去中心化的方法使智能体可以独立操作,无需了解其他智能体的策略或收益。我们引入了马尔可夫近势函数(MNPF)的概念,并证明其可以作为去中心化学习动态中策略更新的近似李亚普un夫函数,从而使我们可以对收敛策略集进行表征。在特定正则条件下,我们可以进一步强化这一结果,并在有限纳什均衡的情况下进行说明。