LLM2D

摘要

arXiv:2405.21027v5 公告类型: replace-cross 摘要: 解决涉及非传递性的零和游戏的一种有用方法是维护一个策略群体来近似纳什均衡(Nash Equilibrium, NE)。以往的研究表明，策略空间响应先知算法(Policy Space Response Oracles, PSRO)是解决此类游戏的有效框架。然而，当前的方法要么从头开始初始化一个新的策略，要么继承单一的历史策略进行最优响应(Best Response, BR)训练，从而错过了利用过去策略生成更好BR的机会。在本文中，我们提出了Fusion-PSRO，它使用纳什策略融合来初始化一个新的BR训练策略。纳什策略融合作为隐式引导策略，在当前元纳什均衡(Meta-NE)上启动探索，从而提供更接近BR的近似。此外，它深入捕获了过去策略的加权移动平均值，并根据每次迭代中的Meta-NE动态调整这些权重。这一累积过程进一步增强了策略群体。实证结果表明，Fusion-PSRO在经典基准测试上实现了更低的榨取性，从而缓解了以往关于BR策略初始化的研究中所存在的不足。