LLM2D
我们距离理解大语言模型的决策-making能力还有多远?评估大语言模型在多智能体环境中的作弊能力
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments
作者: Jen-tse Huang, Eric John Li, Man Ho Lam, Tian Liang, Wenxuan Wang, Youliang Yuan, Wenxiang Jiao, Xing Wang, Zhaopeng Tu, Michael R. Lyu
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2403.11807v5

摘要

arXiv:2403.11807v5 通告类型: 替换 摘要:决策是一个复杂的过程,需要多种能力,因此它是一个评估大规模语言模型(LLMs)的理想框架。研究人员通过博弈论的视角来评估LLMs的决策能力。然而,现有的评估主要集中在两个玩家的场景中,其中LLM与其他模型竞争。此外,之前的基准测试由于其静态设计存在测试集泄漏的问题。我们引入了GAMA($\gamma$)-Bench,这是一种新的框架,用于评估LLMs在多代理环境中的游戏能力。它包含了八个经典的博弈论场景和一个动态评分方案,特别设计用于定量评估LLMs的性能。$\gamma$-Bench 允许灵活的游戏设置,并根据不同的游戏参数调整评分系统,从而使评估更加全面,包括鲁棒性、泛化能力和改进策略的评估。我们的结果表明,GPT-3.5展示了强烈的鲁棒性,但泛化能力有限,可以通过使用Chain-of-Thought等方法来增强。我们还评估了6个模型家族中的13个LLM,包括GPT-3.5、GPT-4、Gemini、LLaMA-3.1、Mixtral和Qwen-2。Gemini-1.5-Pro的表现优于其他模型,得分为69.8(满分为100),其次是LLaMA-3.1-70B(65.9)和Mixtral-8x22B(62.4)。我们的代码和实验结果可以在 https://github.com/CUHK-ARISE/GAMABench 公开获取。