LLM2D
基于树利用的PSRO中的策略抽象与纳什精炼
Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO
作者: Christine Konicki, Mithun Chakraborty, Michael P. Wellman
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02901v1

摘要

arXiv:2502.02901v1 交叉公告类型 摘要:策略空间响应先验(PSRO)将经验博弈论分析与深度强化学习(DRL)结合,以解决传统分析方法无法解决的复杂博弈游戏。树利用PSRO(TE-PSRO)是这一方法的一种变体,它通过模拟器获取的数据,迭代构建详细描述游戏的扩展形式的经验博弈模型。我们对TE-PSRO做出了两项主要的方法论改进,使其在不完美信息博弈中更具适用性。首先,我们引入了一种可扩展的经验博弈树表示,在这种表示中,边对应于通过DRL学习的隐式策略。这些策略涵盖了博弈模型中抽象的游戏情况,支持树在轮次中的可持续增长。其次,我们通过采用精确的纳什均衡来利用扩展形式的经验模型,以引导策略探索。为此,我们提供了一种基于广义反向归纳的模块化和可扩展算法,用于计算不完美信息博弈中的子博弈完美均衡(SPE)。我们对包括轮番报价议价游戏(有外部报价)在内的多种游戏进行了实验性评估,结果表明,当基于SPE而不是纳什均衡生成新策略时,TE-PSRO更快地收敛到均衡,并且对于增长的经验模型具有合理的计算时间和内存要求。