LLM2D

摘要

大型语言模型（LLM）在经济和战略互动中展现出巨大潜力，因为自然语言交流在这些互动中普遍存在。这引发了关键问题：LLM 是否理性行事？它们能否模仿人类行为？它们是否倾向于达到有效且公平的结果？自然语言在战略互动中扮演什么角色？经济环境的特征如何影响这些动态？这些问题对于将基于 LLM 的代理集成到现实世界的数据驱动系统（如在线零售平台和推荐系统）的经济和社会影响至关重要。虽然机器学习社区一直在探索 LLM 在此类多代理设置中的潜力，但不同研究之间的假设、设计选择和评估标准差异使得难以得出可靠且有意义的结论。为了解决这个问题，我们引入了一个基准，用于标准化关于两人、顺序、基于语言的游戏的研究。受经济学文献的启发，我们定义了三个基本游戏家族，它们具有一致的参数化、自由度和经济指标，用于评估代理的表现（自我收益）以及游戏结果（效率和公平性）。我们开发了一个用于互动模拟和分析的开源框架，并利用它收集了一个跨众多游戏配置的 LLM 与 LLM 互动数据集，以及一个人类与 LLM 互动数据集。通过广泛的实验，我们证明了我们的框架和数据集可用于：（i）比较基于 LLM 的代理在各种经济环境中的行为与人类玩家的行为；（ii）评估代理在个人和集体绩效指标上的表现；以及（iii）量化环境的经济特征对代理行为的影响。