摘要
arXiv:2504.12562v1 Announce Type: 新
摘要:传统上评估大语言模型(LLMs)的能力依赖于静态基准数据集、人类评估或基于模型的评估方法,这些方法常常会遭受过拟合、成本高昂和偏见的问题。ZeroSumEval 是一种新颖的比赛式评估协议,利用零和博弈来评估 LLMs,并使用动态基准避免饱和。ZeroSumEval 涵盖了一系列多样的游戏,包括安全挑战(PyJail)、经典游戏(国际象棋、骰子赌局、扑克)、知识测试(MathQuiz)和说服挑战(Gandalf、辩论)。这些游戏旨在评估多种 AI 能力,如战略推理、计划、知识应用和创造力。基于近期研究表明基于游戏的评估对 LLMs 的有效性,ZeroSumEval 通过提供标准化和可扩展的框架来改进这些方法。为展示这一点,我们在7款游戏和13个模型上进行了多次实验,超过7000次模拟。结果显示,尽管 GPT 和 Claude 家族的前沿模型可以玩常见的游戏和回答问题,但在需要提出新颖且富有挑战性的问题的游戏上,它们却表现不佳。我们还观察到,模型无法可靠地相互越狱,并在需要创造力的任务上普遍失败。我们已将代码发布在 https://github.com/facebookresearch/ZeroSumEval。