摘要
arXiv:2502.14200v1 宣布类型: 新
摘要: 多智能体强化学习的可扩展性仍然是一个挑战,并且目前正受到广泛关注。一种名为均场强化学习(MFRL)的框架可以通过运用均场理论将多智能体问题转化为两智能体问题来缓解可扩展性问题。然而,这个框架缺乏在非站定环境识别关键交互的能力。因果关系包含在交互背后的相对不变机制,尽管环境是非站定的。因此,我们提出了一种名为因果均场Q学习(CMFQ)的算法,以解决可扩展性问题。尽管继承了MFRL的动作-状态空间压缩表示,CMFQ更能够应对智能体数量的变化。首先,我们将MFRL决策过程背后的因果关系建模为结构因果模型(SCM)。然后,通过干预SCM量化每个交互的关键程度。此外,我们设计了一种意识因果关系的紧凑表示,作为所有行为信息的加权和,根据它们的因果影响赋予不同权重。我们将在混合合作-竞争游戏和合作游戏中测试CMFQ。结果显示,我们的方法在包含大量智能体的环境中的训练和包含更多智能体的环境中的测试中展现出出色的可扩展性。