摘要
arXiv:2504.20879v2 公告类型:替换
摘要:衡量进展是任何科学领域发展的基础。随着基准测试在其中发挥越来越核心的作用,它们也变得更加容易受到扭曲的影响。Chatbot Arena 已经成为评估最强大人工智能系统的首选排行榜。然而,在这项工作中,我们识别出了系统性问题,这些问题导致了比赛环境的扭曲。我们发现,未公开的私人测试实践为少数供应商提供了优势,这些供应商能够在公开发布前测试多个变体,并在需要时撤回评分。我们证明,这些供应商能够选择最佳评分的能力导致了由于选择性披露性能结果而导致的Arena评分偏差。在极端情况下,我们识别出 Meta 在Llama-4 发布前测试了 27 种私人 LLM 变体。我们还确定,专有的封闭模型被抽样率更高(比赛次数),并且被移出竞技场的模型较少,这与开源和开放代码的替代品形成对比。这两种政策随着时间的推移导致了数据访问不对称性。像谷歌和OpenAI这样的提供商分别估计获得了竞技场数据的19.2%和20.4%。相比之下,组合起来共83个开源模型仅获得了估计总数据的29.7%。我们展示,获取Chatbot Arena的数据带来了显著的好处;即使是有限的额外数据也可以基于我们的保守估计,在竞技场分布中带来高达112%的相对性能提升。这两种动态导致了对竞技场特定动态的过度拟合,而不是对一般模型质量的关注。Chatbot Arena 基于组织者和维护这一宝贵评价平台的开放社区的巨大努力。我们提出了针对Chatbot Arena评估框架的可操作建议,以促进更公平、更透明的基准测试,为该领域服务。