摘要
arXiv:2504.11442v1 类型: 交叉
摘要: TextArena 是一个开源的基于文本的竞争游戏集合,用于大型语言模型(LLMs)的代理行为训练和评估。它涵盖了 57+ 种独特的环境(包括单人游戏、双人游戏和多人游戏设置),并通过在线游戏系统(与人类和其他提交的模型对战)提供实时 TrueSkill 分数来轻松评估模型的能力。传统的基准测试很少评估如谈判、共情和欺骗等动态社会技能,创建了一个 TextArena 所解决的缺口。TextArena 旨在考虑到研究、社区和可扩展性,在易于添加新游戏、适应框架、测试模型、与模型对战以及训练模型方面进行了重点强调。关于环境、游戏、排行榜和示例的详细文档可在 https://github.com/LeonGuertler/TextArena 和 https://www.textarena.ai/ 上找到。