LLM2D

摘要

arXiv:2504.20879v1 宣告类型: 新摘要: 量化进步是任何科学研究前进的基础。随着基准测试占据越来越核心的角色，它们也变得更加容易受到扭曲的影响。Chatbot Arena 已经成为排名最强大人工智能系统的首选排行榜。然而，在这项工作中，我们发现了导致扭曲比赛场的因素。我们发现，未披露的私人测试实践有利于少数提供者，在公开发布前可以测试多个变体，并在必要时收回成绩。我们证明了这些提供者选择最佳成绩的能力导致了由于选择性披露性能结果而产生的偏向 Arena 成绩。在极端情况下，我们发现 Meta 在 Llama-4 发布前测试了 27 种私人 LLM 变体。我们还证明了专有封闭模型在比赛中被抽样的频率（场数）高于开放权重和开源替代品，并且被从竞技场中移除的模型较少。这两种政策导致了长时间的数据访问不对称。像 Google 和 OpenAI 这样的提供者分别占据了所有竞技场数据的 19.2% 和 20.4%。相比之下，合计只有 83 个开放权重模型占据了总数据的大约 29.7%。我们展示了对 Chatbot Arena 数据的访问带来了显著的好处；即使是有限的额外数据也能基于我们保守的估计，在竞技场分布中带来高达 112% 的相对性能提升。这些动态导致了对竞技场特定动态的过度拟合，而不是一般的模型质量。Chatbot Arena 建立在组织者和维护这一有价值的评估平台的开源社区的巨大努力之上。我们提出了具体建议来改革 Chatbot Arena 的评估框架，并推动更为公平和透明的基准测试，以促进该领域的进步。