LLM2D
GameArena:通过实时计算机游戏评估LLM推理能力
GameArena: Evaluating LLM Reasoning through Live Computer Games
作者: Lanxiang Hu, Qiyu Li, Anze Xie, Nan Jiang, Ion Stoica, Haojian Jin, Hao Zhang
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.06394v5

摘要

arXiv:2412.06394v5 更新类型: 替换 摘要:评估大型语言模型(LLMs)的推理能力具有挑战性。现有的基准测试往往依赖于静态数据集,这些数据集容易受到数据污染的影响,并且随着时间的推移可能会饱和,或者依赖于混淆推理与其他能力的二元实时人类反馈。作为最突出的动态基准之一,聊天机器人大擂台在现实世界环境中评估开放性问题,但缺乏对特定推理能力的细微程度评估。我们介绍了GameArena,这是一个旨在通过与人类互动的游戏来评估LLM推理能力的动态基准。GameArena 包含三个游戏,这些游戏旨在测试特定的推理能力(例如演绎和归纳推理),同时还能使参与者保持娱乐和参与。我们回顾性地分析游戏数据,以揭示LLMs的潜在推理过程,并衡量其细微程度的推理能力。我们收集了超过2000场游戏会话,并对五种最先进的LLM的各种推理能力进行了详细的评估。我们的用户研究涉及100名参与者,表明与聊天机器人大擂台相比,GameArena 可以提高用户参与度。GameArena 是首次能够在野外收集LLM的逐步推理数据。