LLM2D

摘要

在两队零和博弈中，各队内部的代理人协作以对抗对方队伍，其事前均衡被认为是队伍在协调方面所能达成的最佳结果。许多现有的关于事前均衡解的研究都致力于基于策略空间响应预言 (PSRO) 将事前均衡求解的范围扩展到大型团队博弈。然而，最突出方法 Team PSRO 构建的联合团队策略空间在队友扮演不同角色的异质团队博弈中无法覆盖整个团队策略空间。这种不足的策略表达能力导致 Team PSRO 陷入次优事前均衡，其可利用性显著提高，并且永远无法收敛到全局事前均衡。为了在不引入额外计算复杂度的情况下找到全局事前均衡，我们首先为队友参数化异质策略，并证明按顺序优化异质队友的策略可以保证团队奖励的单调改进。我们进一步提出了异质-PSRO (H-PSRO)，一种针对异质团队博弈的新框架，它将顺序相关机制集成到 PSRO 框架中，并成为第一个针对异质团队博弈的 PSRO 框架。我们证明 H-PSRO 在异质团队博弈中比 Team PSRO 具有更低的可利用性。在经验上，H-PSRO 在非异质基线无法解决的矩阵异质博弈中实现了收敛。进一步的实验表明，H-PSRO 在异质团队博弈和同质设置中都优于非异质基线。