摘要
arXiv:2503.09309v2 宣告类型: 重叠交叉
摘要:激励设计是一种通过提供额外的奖励来引导智能体的学习动态朝向期望结果的流行框架。然而,现有大多数工作关注有限的小规模智能体群体,或者假设完全了解游戏规则,这限制了它们在涉及大规模人群和模型不确定性的真实世界场景中的应用。为了解决这一问题,我们研究了在转换与密度无关的均场博弈(Mean-Field Games, MFG)中引导奖励的设计,其中的转换动态和内在奖励函数都是未知的。这种设置带来了非平凡的挑战,调解者必须激励智能体在其模型学习的不确定性下探索,同时也要引导它们收敛到期望行为而不过度支付激励。假设智能体表现出非自适应遗憾行为,我们贡献了新颖的乐观探索算法。理论上,我们建立了智能体行为与期望行为之间的累积差距的次线性遗憾保证。在引导成本方面,我们表明我们总的激励支付仅产生次线性超额成本,这与将目标策略稳定为平衡点的基本引导策略相媲美。我们的工作提供了一种在不确定性下引导大规模系统中智能体行为的有效框架。