LLM2D
博弈均衡路径
Paths to Equilibrium in Games
作者: Bora Yongacoglu, G\"urdal Arslan, Lacra Pavel, Serdar Y\"uksel
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2403.18079v2

摘要

在多智能体强化学习 (MARL) 和博弈论中,智能体反复交互并根据新数据的到来修正其策略,从而产生一系列策略组合。本文研究了满足成对约束的策略序列,该约束受强化学习中策略更新的启发,其中在某个时期内最佳响应的智能体不会在下一时期改变其策略。该约束仅仅要求优化智能体不改变策略,但不会以任何方式约束非优化智能体,因此允许探索。具有此属性的序列称为满足路径,在许多 MARL 算法中自然产生。关于战略动态的一个基本问题是:对于给定的博弈和初始策略组合,是否总是可以构造一条终止于均衡的满足路径?这个问题的解决对一类 MARL 算法的能力或局限性具有影响。我们针对范式博弈肯定地回答了这个问题。我们的分析揭示了一个反直觉的见解,即奖励恶化的策略更新是推动博弈沿着满足路径走向均衡的关键。