LLM2D

摘要

在多智能体强化学习 (MARL) 和博弈论中，智能体反复交互并根据新数据的到来修正其策略，从而产生一系列策略组合。本文研究了满足成对约束的策略序列，该约束受强化学习中策略更新的启发，其中在某个时期内最佳响应的智能体不会在下一时期改变其策略。该约束仅仅要求优化智能体不改变策略，但不会以任何方式约束非优化智能体，因此允许探索。具有此属性的序列称为满足路径，在许多 MARL 算法中自然产生。关于战略动态的一个基本问题是：对于给定的博弈和初始策略组合，是否总是可以构造一条终止于均衡的满足路径？这个问题的解决对一类 MARL 算法的能力或局限性具有影响。我们针对范式博弈肯定地回答了这个问题。我们的分析揭示了一个反直觉的见解，即奖励恶化的策略更新是推动博弈沿着满足路径走向均衡的关键。