摘要
arXiv:2504.01833v1 评价类型:交叉
摘要:有效地评估大型语言模型(LLMs)仍然是一个关键瓶颈,因为传统的静态基准会受到饱和和污染的影响,而人工评估则成本高且耗时。这妨碍了及时或特定领域的评估,这对实际应用至关重要。我们提出了YourBench,这是一种新颖的开源框架,通过从用户提供的文档中直接生成免费、动态、自动化的可靠、与时俱进和领域定制化基准,来解决这些限制。我们通过使用最少的源文本复制7个不同的MMLU子集,已实现总推理成本低于15美元,同时完全保持了原始基准中观察到的模型性能排名(Spearman Rho = 1)。为了确保YourBench生成的数据基于提供的输入,而非依赖模型中的后验参数知识,我们还引入了Tempora-0325,这是一个包含超过7000个多样文档的新型数据集,专门在2025年3月之后发布。我们全面分析了来自7个主要家族中26个最先进模型(参数规模从3亿到6710亿不等)的数据,以通过严格的算法检查(例如,引文定位)和人工评估验证生成的评估的质量。我们发布了YourBench库、Tempora-0325数据集、基于Tempora的15万多个问答对以及所有评估和推理痕迹,以促进可重现研究,并使社区能够按需生成定制基准,从而促进更相关和值得信赖的LLM评估。