摘要
我们提出了一种新的对数-Q动力学家族,通过将正则形式博弈重复博弈的对数线性学习(也称为对数动力学)与辅助阶段博弈框架内未知马尔可夫决策过程的Q学习相结合,以实现随机博弈中的高效学习。在这个框架中,我们将随机博弈视为代理人反复玩一些与底层博弈当前状态相关的阶段博弈,而代理人的Q函数决定这些阶段博弈的收益。我们证明了所提出的对数-Q动力学在具有未知动态的随机团队中达到了(接近)有效均衡,并量化了近似误差。我们还展示了对数-Q动力学相对于遵循纯稳态策略的代理人的理性,以及在阶段收益引起潜在博弈的随机博弈中动力学的收敛性,但只有一个代理人控制着随机团队以外的状态转换。关键思想是通过一个虚构场景来近似动力学,在这个场景中,Q函数估计在长度以足够慢的速度增长的时期内保持静止。然后,我们将主场景和虚构场景中的动力学耦合起来,以表明由于步长消失和时期长度增长,这两个场景在各个时期变得越来越相似。