LLM2D
GLEE:一个统一的语言经济环境框架和基准
GLEE: A Unified Framework and Benchmark for Language-based Economic Environments
作者: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz
发布日期: 10/8/2024
arXiv ID: oai:arXiv.org:2410.05254v1

摘要

大型语言模型(LLM)在经济和战略互动中展现出巨大潜力,因为自然语言交流在这些互动中普遍存在。这引发了关键问题:LLM 是否理性行事?它们能否模仿人类行为?它们是否倾向于达到有效且公平的结果?自然语言在战略互动中扮演什么角色?经济环境的特征如何影响这些动态?这些问题对于将基于 LLM 的代理集成到现实世界的数据驱动系统(如在线零售平台和推荐系统)的经济和社会影响至关重要。虽然机器学习社区一直在探索 LLM 在此类多代理设置中的潜力,但不同研究之间的假设、设计选择和评估标准差异使得难以得出可靠且有意义的结论。为了解决这个问题,我们引入了一个基准,用于标准化关于两人、顺序、基于语言的游戏的研究。受经济学文献的启发,我们定义了三个基本游戏家族,它们具有一致的参数化、自由度和经济指标,用于评估代理的表现(自我收益)以及游戏结果(效率和公平性)。我们开发了一个用于互动模拟和分析的开源框架,并利用它收集了一个跨众多游戏配置的 LLM 与 LLM 互动数据集,以及一个人类与 LLM 互动数据集。通过广泛的实验,我们证明了我们的框架和数据集可用于:(i)比较基于 LLM 的代理在各种经济环境中的行为与人类玩家的行为;(ii)评估代理在个人和集体绩效指标上的表现;以及(iii)量化环境的经济特征对代理行为的影响。