LLM2D

摘要

现实世界中的多智能体场景通常涉及混合动机，需要能够自我保护以防止潜在剥削的利他型智能体。然而，现有的方法往往难以同时实现这两个目标。在本文中，基于移情反应是由智能体之间推断出的社会关系调制的这一观点，我们提出了 LASE（基于移情的利他主义和自私学习），这是一种分布式多智能体强化学习算法，它通过馈赠来促进利他型合作，同时避免在混合动机博弈中被其他智能体剥削。LASE 将其奖励的一部分分配给合作玩家作为礼物，这种分配会根据社会关系动态调整——一个通过反事实推理评估合作玩家友好程度的指标。特别是，社会关系通过将当前联合行动的估计 Q 函数与一个将合作玩家行动边缘化的反事实基线进行比较来衡量每个合作玩家，其中其行动分布由一个视角转换模块推断得出。在空间和时间上扩展的混合动机博弈中进行了全面的实验，证明了 LASE 能够在不损害公平性的前提下促进群体合作，以及其适应各种互动型合作玩家策略的能力。