摘要
arXiv:2503.10673v2 评测类型: replace-cross
摘要: 我们引入了ZeroSumEval,这是一个利用竞赛游戏的动态、竞争性和进化的大型语言模型(LLMs)评估框架。ZeroSumEval 包含一系列多样的游戏,包括安全挑战(夺旗)、经典桌面游戏(象棋)和知识测试(MathQuiz)。这些游戏旨在评估战略推理、计划、知识应用、安全性和适应性等多种能力。通过最近的研究强调了基于游戏的评估对于LLMs的有效性,ZeroSumEval 进一步通过提供一个标准化和可扩展的框架来简化游戏的实现,并利用 DSPy 为LLMs玩家策略提供更好的抽象。