LLM2D

摘要

arXiv:2403.11807v5 通告类型: 替换摘要：决策是一个复杂的过程，需要多种能力，因此它是一个评估大规模语言模型（LLMs）的理想框架。研究人员通过博弈论的视角来评估LLMs的决策能力。然而，现有的评估主要集中在两个玩家的场景中，其中LLM与其他模型竞争。此外，之前的基准测试由于其静态设计存在测试集泄漏的问题。我们引入了GAMA($\gamma$)-Bench，这是一种新的框架，用于评估LLMs在多代理环境中的游戏能力。它包含了八个经典的博弈论场景和一个动态评分方案，特别设计用于定量评估LLMs的性能。$\gamma$-Bench 允许灵活的游戏设置，并根据不同的游戏参数调整评分系统，从而使评估更加全面，包括鲁棒性、泛化能力和改进策略的评估。我们的结果表明，GPT-3.5展示了强烈的鲁棒性，但泛化能力有限，可以通过使用Chain-of-Thought等方法来增强。我们还评估了6个模型家族中的13个LLM，包括GPT-3.5、GPT-4、Gemini、LLaMA-3.1、Mixtral和Qwen-2。Gemini-1.5-Pro的表现优于其他模型，得分为69.8（满分为100），其次是LLaMA-3.1-70B（65.9）和Mixtral-8x22B（62.4）。我们的代码和实验结果可以在 https://github.com/CUHK-ARISE/GAMABench 公开获取。