LLM2D

摘要

我们引入了 WildBench，一个旨在使用具有挑战性的真实世界用户查询对大型语言模型 (LLM) 进行基准测试的自动化评估框架。WildBench 包含从超过一百万个人机对话日志中精心挑选的 1,024 个任务。为了用 WildBench 进行自动化评估，我们开发了两个指标，WB-Reward 和 WB-Score，它们可以使用 GPT-4-turbo 等高级 LLM 计算。WildBench 评估使用特定于任务的清单来系统地评估模型输出，并提供结构化的解释来证明分数和比较，从而产生更可靠和可解释的自动判断。WB-Reward 采用模型响应之间的细粒度成对比较，生成五种可能的输出：好很多、略好、略差、差很多或平局。与以前使用单个基线模型的评估不同，我们选择了三个不同性能水平的基线模型，以确保全面的成对评估。此外，我们提出了一种简单的方法来减轻长度偏差，方法是将“略好/略差”的结果转换为“平局”，如果获胜者响应比失败者响应多于 K 个字符。WB-Score 单独评估模型输出的质量，使其成为一种快速且成本效益高的评估指标。WildBench 结果表明，与 Chatbot Arena 在困难任务上的人工投票 Elo 等级有很强的相关性。具体来说，WB-Reward 与排名靠前的模型的皮尔逊相关系数为 0.98。此外，WB-Score 达到了 0.95，超过了 ArenaHard 的 0.91 和 AlpacaEval2.0 的 0.89 的长度控制获胜率，以及常规获胜率的 0.87。