摘要
基于代理的模型(ABMs)是经济学中用于克服基于一般均衡假设的传统框架的一些局限性的模拟模型。然而,ABM 中的代理遵循预先确定的“有限理性”行为规则,这些规则的设计可能很繁琐,也很难证明其合理性。在这里,我们利用多智能体强化学习 (RL) 来扩展 ABMs 的能力,引入了通过与环境交互并最大化奖励函数来学习其策略的“完全理性”代理。具体来说,我们通过扩展经济学文献中的典型宏观 ABM,提出了一个“理性宏观 ABM”(R-MABM)框架。我们表明,逐渐用 RL 代理替换模型中的 ABM 公司,这些代理经过训练可以最大化利润,从而可以研究理性对经济的影响。我们发现,RL 代理自发地学习了三种不同的利润最大化策略,最佳策略取决于市场竞争和理性的水平。我们还发现,具有独立策略并且无法相互交流的 RL 代理会自发地学习将自己分成不同的战略群体,从而增加市场力量和总体利润。最后,我们发现,经济中数量较多的理性(RL)代理总是会改善以总产出衡量的宏观经济环境。根据具体的理性政策,这可能会以更高的不稳定性为代价。我们的 R-MABM 框架允许稳定的多智能体学习,具有开源代码,代表了扩展经济模拟器的一个有原则且稳健的方向。