LLM2D

摘要

arXiv:2406.13605v2 公告类型: 替换-交叉摘要: 大型语言模型 (LLMs) 作为人工社会代理的行为在很大程度上尚未被探索，我们仍然缺乏这些代理如何对简单的社会刺激做出反应的广泛证据。在经典博弈论实验中测试人工智能代理的行为，为评估这些代理在典型社会情境中的规范和价值观提供了一个有前景的理论框架。在这项工作中，我们研究了三个 LLMs (Llama2、Llama3 和 GPT3.5) 在迭代囚徒困境中与表现出不同敌意水平的随机对手对战时的合作行为。我们引入了一种系统的方法来评估 LLM 对游戏规则的理解及其解析历史游戏记录以进行决策的能力。我们进行了持续 100 轮的游戏模拟，并根据行为经济学文献中定义的维度分析了 LLMs 的决策。我们发现，所有模型都不倾向于发起背叛，而是谨慎行事，只有在对手的背叛率较低时才倾向于合作。总体而言，LLMs 的行为至少与典型的人类玩家一样合作，尽管我们的结果表明模型之间存在一些显著差异。特别是，Llama2 和 GPT3.5 比人类更合作，尤其是对于对手背叛率低于 30% 的情况，它们表现出极大的宽容和不报复性。与人类更相似的是，Llama3 除非对手始终合作，否则表现出持续的不合作和剥削行为。我们对 LLMs 在博弈论场景中的系统研究是朝着利用这些模拟来指导 LLM 审计和调整实践迈出的一步。