LLM2D

摘要

arXiv:2502.09780v1 Announce Type: cross 摘要：多智能体强化学习（MARL）涉及一组智能体在共享的未知环境中交互的应用程序的核心。研究MARL的一个主要框架是马尔可夫游戏，其目标是以样本效率的方式找到各种均衡概念，例如纳什均衡（NE）和粗略相关均衡（CCE）。然而，现有的样本高效方法要么需要在函数近似下进行定制化的不确定性估计，要么需要仔细协调参与者的策略。在本文中，我们提出了一种名为VMG的新模型启发式算法，通过偏置模型参数的实证估计，使其偏向于固定其他智能体策略时所有智能体的最佳响应值较高的参数，从而激励智能体偏离其当前的均衡状态以进行更多探索。VMG 对不同形式的函数近似是盲目的，并允许所有智能体的策略同时且解耦地更新。理论上，我们还证明，在线环境中，VMG 在线性函数近似的情况下，能够实现对两智能体零和马尔可夫游戏纳什均衡和多智能体非零和马尔可夫游戏粗略相关均衡的近最优后悔，几乎与具有高级不确定性量化的方法相当。