LLM2D

摘要

arXiv:2504.12562v1 Announce Type: 新摘要：传统上评估大语言模型（LLMs）的能力依赖于静态基准数据集、人类评估或基于模型的评估方法，这些方法常常会遭受过拟合、成本高昂和偏见的问题。ZeroSumEval 是一种新颖的比赛式评估协议，利用零和博弈来评估 LLMs，并使用动态基准避免饱和。ZeroSumEval 涵盖了一系列多样的游戏，包括安全挑战（PyJail）、经典游戏（国际象棋、骰子赌局、扑克）、知识测试（MathQuiz）和说服挑战（Gandalf、辩论）。这些游戏旨在评估多种 AI 能力，如战略推理、计划、知识应用和创造力。基于近期研究表明基于游戏的评估对 LLMs 的有效性，ZeroSumEval 通过提供标准化和可扩展的框架来改进这些方法。为展示这一点，我们在7款游戏和13个模型上进行了多次实验，超过7000次模拟。结果显示，尽管 GPT 和 Claude 家族的前沿模型可以玩常见的游戏和回答问题，但在需要提出新颖且富有挑战性的问题的游戏上，它们却表现不佳。我们还观察到，模型无法可靠地相互越狱，并在需要创造力的任务上普遍失败。我们已将代码发布在 https://github.com/facebookresearch/ZeroSumEval。