摘要
arXiv:2406.19314v2 评测类型: 替换交叉
摘要: 测试集污染是指基准测试中的测试数据意外出现在新模型的训练集中,这是公平的语言模型评估中一个已知的障碍,会导致基准测试迅速过时。为解决这一问题,许多近期的基准测试尝试通过人类或语言模型法官来众包新的提示和评估;然而,这些做法可能会引入重大偏见,并且在评分困难问题时会失效。在本文中,我们引入了一个新的针对语言模型的基准测试,旨在抵抗测试集污染和语言模型评估以及人类众包的陷阱。我们发布了LiveBench,这是第一个包含以下内容的基准测试:(1) 基于近期信息源的频繁更新的问题,(2) 根据客观的基准值自动评分答案,以及(3) 包含各种具有挑战性的任务,涵盖了数学、编程、推理、语言、指令跟随和数据分析。为了实现这一点,LiveBench 包含基于最近发布的数学竞赛、arXiv 论文、新闻文章和数据集的问题,并且包含来自以前基准测试(如 Big-Bench Hard、AMPS 和 IFEval)的更难的、污染限制版本的任务。我们评估了许多知名的闭源模型,以及从 0.5B 到 405B 不等的几十个开源模型。LiveBench 比较困难,甚至顶级模型的准确率也低于 70%。我们发布了所有问题、代码和模型答案。问题每月都会更新,并且我们会随着时间的推移发布新的任务和更难的版本,以便 LiveBench 能够在未来区分语言模型的能力。我们欢迎社区参与和合作,以扩大基准测试中的任务和模型。