摘要
我们引入了 WildBench,一个旨在使用具有挑战性的真实世界用户查询对大型语言模型 (LLM) 进行基准测试的自动化评估框架。WildBench 包含从超过一百万个人机对话日志中精心挑选的 1,024 个任务。为了用 WildBench 进行自动化评估,我们开发了两个指标,WB-Reward 和 WB-Score,它们可以使用 GPT-4-turbo 等高级 LLM 计算。WildBench 评估使用特定于任务的清单来系统地评估模型输出,并提供结构化的解释来证明分数和比较,从而产生更可靠和可解释的自动判断。WB-Reward 采用模型响应之间的细粒度成对比较,生成五种可能的输出:好很多、略好、略差、差很多或平局。与以前使用单个基线模型的评估不同,我们选择了三个不同性能水平的基线模型,以确保全面的成对评估。此外,我们提出了一种简单的方法来减轻长度偏差,方法是将“略好/略差”的结果转换为“平局”,如果获胜者响应比失败者响应多于 K 个字符。WB-Score 单独评估模型输出的质量,使其成为一种快速且成本效益高的评估指标。WildBench 结果表明,与 Chatbot Arena 在困难任务上的人工投票 Elo 等级有很强的相关性。具体来说,WB-Reward 与排名靠前的模型的皮尔逊相关系数为 0.98。此外,WB-Score 达到了 0.95,超过了 ArenaHard 的 0.91 和 AlpacaEval2.0 的 0.89 的长度控制获胜率,以及常规获胜率的 0.87。