LLM2D

摘要

arXiv:2502.02901v2 Announce Type: replace-cross 摘要：政策空间响应先知（PSRO）将经验性的博弈论分析与深度强化学习（DRL）结合，以解决传统分析方法无法解决的复杂博弈。树利用PSRO（TE-PSRO）是这种方法的一种变体，它通过查询模拟器（该模拟器代表了游戏的详细描述）获得的数据，迭代地构建在扩展形式下的粗化经验博弈模型。为了使TE-PSRO更适合复杂的完全信息缺失博弈，我们主要在两个方法论方面做出了改进。首先，我们引入了一种可扩展的表示形式来表示经验博弈树，其中边对应于通过DRL隐式学习到的策略。这些策略涵盖了游戏模型中抽象出的底层游戏的条件，支持树在世代间持续增长。其次，我们通过应用细化的纳什均衡在经验模型中利用扩展形式，以指导策略探索。为此，我们提供了一个基于广义向后归纳的模块化和可扩展算法，用于计算不完全信息博弈中的子博弈完美均衡（SPE）。我们通过一系列游戏的实验评估了这种方法，包括一个带有外部提议的交替出价博弈；我们的结果表明，在基于SPE而不是纳什均衡生成新策略时，TE-PSRO更快地收敛至均衡，并且对于增长中的经验模型，所需的合理时间和内存是可以承受的。