LLM2D

摘要

arXiv:2503.10673v2 评测类型: replace-cross 摘要: 我们引入了ZeroSumEval，这是一个利用竞赛游戏的动态、竞争性和进化的大型语言模型（LLMs）评估框架。ZeroSumEval 包含一系列多样的游戏，包括安全挑战（夺旗）、经典桌面游戏（象棋）和知识测试（MathQuiz）。这些游戏旨在评估战略推理、计划、知识应用、安全性和适应性等多种能力。通过最近的研究强调了基于游戏的评估对于LLMs的有效性，ZeroSumEval 进一步通过提供一个标准化和可扩展的框架来简化游戏的实现，并利用 DSPy 为LLMs玩家策略提供更好的抽象。