LLM2D

摘要

arXiv:2412.06394v5 更新类型: 替换摘要：评估大型语言模型（LLMs）的推理能力具有挑战性。现有的基准测试往往依赖于静态数据集，这些数据集容易受到数据污染的影响，并且随着时间的推移可能会饱和，或者依赖于混淆推理与其他能力的二元实时人类反馈。作为最突出的动态基准之一，聊天机器人大擂台在现实世界环境中评估开放性问题，但缺乏对特定推理能力的细微程度评估。我们介绍了GameArena，这是一个旨在通过与人类互动的游戏来评估LLM推理能力的动态基准。GameArena 包含三个游戏，这些游戏旨在测试特定的推理能力（例如演绎和归纳推理），同时还能使参与者保持娱乐和参与。我们回顾性地分析游戏数据，以揭示LLMs的潜在推理过程，并衡量其细微程度的推理能力。我们收集了超过2000场游戏会话，并对五种最先进的LLM的各种推理能力进行了详细的评估。我们的用户研究涉及100名参与者，表明与聊天机器人大擂台相比，GameArena 可以提高用户参与度。GameArena 是首次能够在野外收集LLM的逐步推理数据。