LLM2D
基于树利用的PSRO中的策略抽象与纳什精炼
Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO
作者: Christine Konicki, Mithun Chakraborty, Michael P. Wellman
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.02901v2

摘要

arXiv:2502.02901v2 Announce Type: replace-cross 摘要:政策空间响应先知(PSRO)将经验性的博弈论分析与深度强化学习(DRL)结合,以解决传统分析方法无法解决的复杂博弈。树利用PSRO(TE-PSRO)是这种方法的一种变体,它通过查询模拟器(该模拟器代表了游戏的详细描述)获得的数据,迭代地构建在扩展形式下的粗化经验博弈模型。为了使TE-PSRO更适合复杂的完全信息缺失博弈,我们主要在两个方法论方面做出了改进。首先,我们引入了一种可扩展的表示形式来表示经验博弈树,其中边对应于通过DRL隐式学习到的策略。这些策略涵盖了游戏模型中抽象出的底层游戏的条件,支持树在世代间持续增长。其次,我们通过应用细化的纳什均衡在经验模型中利用扩展形式,以指导策略探索。为此,我们提供了一个基于广义向后归纳的模块化和可扩展算法,用于计算不完全信息博弈中的子博弈完美均衡(SPE)。我们通过一系列游戏的实验评估了这种方法,包括一个带有外部提议的交替出价博弈;我们的结果表明,在基于SPE而不是纳什均衡生成新策略时,TE-PSRO更快地收敛至均衡,并且对于增长中的经验模型,所需的合理时间和内存是可以承受的。