LLM2D
资源分配的 Competitive 多臂老虎机游戏
Competitive Multi-armed Bandit Games for Resource Sharing
作者: Hongbo Li, Lingjie Duan
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.20975v1

摘要

arXiv:2503.20975v1 类型:交叉 摘要:在现代资源共享系统中,多个代理以未知的随机条件访问有限资源来执行任务。当多个代理同时访问同一个资源(臂)时,他们竞争成功的使用权,导致争用和减少奖励。这促使我们研究竞争多臂赌博机(CMAB)游戏。在本文中,我们研究了一种新的N玩家K臂竞争多臂赌博机游戏,其中非短视玩家(代理)通过时间变化的方式争夺多样化私人估计同一臂。他们可能在同一臂上的碰撞以及臂奖励的时间变化性使得策略分析比现有研究中短视玩家的情况更为复杂。我们明确分析了社会最优和社会上已经存在的自私策略的阈值结构,表明后者导致了延长的收敛时间Ω(\(\frac{K}{\eta^2}\ln({\frac{KN}{\delta}})\)),而通过协调通信的社会最优策略将其降低到\(\mathcal{O}(\frac{K}{N\eta^2}\ln{(\frac{K}{\delta})})\)。基于这些比较,我们证明了自私玩家争夺最优臂的竞争可能导致无限的无效率代价(PoA),这比社会最优效率损失更大。我们进一步证明,没有任何信息机制(包括贝叶斯说服)能够减少这种无限的PoA,因为非短视玩家的战略性误报削弱了这些方法。为了解决这一问题,我们提出了一种联合信息性和旁边支付机制(CISP),该机制根据玩家的时间变化私人信念提供适当的信息和货币激励,以推荐社会最优臂。我们的CISP机制保持了社会规划者事后的预算平衡,并确保玩家的真诚报告,实现了最小的PoA=1和与社会最优相同的收敛时间。