LLM2D

摘要

arXiv:2502.02901v1 交叉公告类型摘要：策略空间响应先验（PSRO）将经验博弈论分析与深度强化学习（DRL）结合，以解决传统分析方法无法解决的复杂博弈游戏。树利用PSRO（TE-PSRO）是这一方法的一种变体，它通过模拟器获取的数据，迭代构建详细描述游戏的扩展形式的经验博弈模型。我们对TE-PSRO做出了两项主要的方法论改进，使其在不完美信息博弈中更具适用性。首先，我们引入了一种可扩展的经验博弈树表示，在这种表示中，边对应于通过DRL学习的隐式策略。这些策略涵盖了博弈模型中抽象的游戏情况，支持树在轮次中的可持续增长。其次，我们通过采用精确的纳什均衡来利用扩展形式的经验模型，以引导策略探索。为此，我们提供了一种基于广义反向归纳的模块化和可扩展算法，用于计算不完美信息博弈中的子博弈完美均衡（SPE）。我们对包括轮番报价议价游戏（有外部报价）在内的多种游戏进行了实验性评估，结果表明，当基于SPE而不是纳什均衡生成新策略时，TE-PSRO更快地收敛到均衡，并且对于增长的经验模型具有合理的计算时间和内存要求。