LLM2D

摘要

专家模仿、行为多样性和公平偏好导致了序贯决策领域中无法随时间累加分解的偏好。我们引入了凸马尔可夫博弈这一类别，它允许对占用测度进行一般的凸偏好。尽管具有无限时间范围并且严格比马尔可夫博弈更具一般性，但在严格凸性的条件下，纯策略纳什均衡依然存在。此外，可以通过对可利用性的上限进行梯度下降来有效地逼近均衡。我们的实验模仿了人类在终极博弈中的选择，揭示了重复囚徒困境的新颖解，并在重复非对称协调博弈中找到了公平解。在囚徒困境中，我们的算法找到的策略组合与观察到的人类行为只有细微的偏差，但却实现了更高的玩家效用，同时可利用性也降低了三个数量级。