LLM2D
ZeroSumEval:一种基于模型间竞争扩展的大型语言模型评估框架
ZeroSumEval: An Extensible Framework For Scaling LLM Evaluation with Inter-Model Competition
作者: Hisham A. Alyahya, Haidar Khan, Yazeed Alnumay, M Saiful Bari, B\"ulent Yener
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2503.10673v2

摘要

arXiv:2503.10673v2 评测类型: replace-cross 摘要: 我们引入了ZeroSumEval,这是一个利用竞赛游戏的动态、竞争性和进化的大型语言模型(LLMs)评估框架。ZeroSumEval 包含一系列多样的游戏,包括安全挑战(夺旗)、经典桌面游戏(象棋)和知识测试(MathQuiz)。这些游戏旨在评估战略推理、计划、知识应用、安全性和适应性等多种能力。通过最近的研究强调了基于游戏的评估对于LLMs的有效性,ZeroSumEval 进一步通过提供一个标准化和可扩展的框架来简化游戏的实现,并利用 DSPy 为LLMs玩家策略提供更好的抽象。