LLM2D

摘要

arXiv:2502.14724v1 交叉公告类型摘要：博弈论解概念，如纳什均衡，一直是寻找多玩家游戏中稳定联合行动的关键。然而，研究表明，即使是简单的小型二人博弈，由于策略较少，参与者的互动动态也无法达到纳什均衡，而是表现出复杂且难以预测的行为。相反，进化方法可以描述策略的长期持久性并筛选掉暂时性的策略，从而考虑参与者互动的长期动态。我们的目标是在动态博弈中识别出能够抵抗变化的稳定行为的联合策略，同时还需考虑参与者的收益。为此，基于先前的结果，本文提出通过考虑参与者的策略而非行动，将动态博弈转换为其实验形式，并运用进化方法$\alpha$-Rank来评估和排名根据其长期动态的策略配置。该方法不仅可以帮助我们识别通过参与者的长期互动而强大的联合策略，还提供了一个关于这些策略高排名的描述性、透明框架。实验关注的是解决随机版本的图着色问题的合作行为。我们通过不同的玩法风格定义实验博弈中的策略，并使用DQN算法训练实现这些策略的策略。然后我们运行模拟以生成$\alpha$-Rank所需生成收益矩阵，用于排名联合策略。