摘要
针对不断适应的群体设计激励机制是一个在各种经济应用领域乃至更广泛范围内的普遍问题。本研究探讨如何在没有事先了解代理人潜在学习动态的情况下,设计额外的奖励来引导多代理人系统朝着期望的策略发展。受现有工作的局限性启发,我们考虑了一种新的、通用的学习动态类别,称为“马尔可夫代理”。我们为我们的引导问题引入了一种基于模型的非情景强化学习 (RL) 公式。重要的是,我们专注于学习一种“历史依赖”的引导策略来处理代理人学习动态的固有模型不确定性。我们引入了一种新的目标函数来编码实现良好引导结果与合理成本的期望。在理论上,我们确定了引导策略存在以引导代理人达到期望策略的条件。为了补充我们的理论贡献,我们提供了近似解决我们目标的经验算法,该算法有效地解决了学习历史依赖策略的挑战。我们通过实证评估证明了我们算法的有效性。