LLM2D

摘要

arXiv:2504.01833v1 评价类型：交叉摘要：有效地评估大型语言模型（LLMs）仍然是一个关键瓶颈，因为传统的静态基准会受到饱和和污染的影响，而人工评估则成本高且耗时。这妨碍了及时或特定领域的评估，这对实际应用至关重要。我们提出了YourBench，这是一种新颖的开源框架，通过从用户提供的文档中直接生成免费、动态、自动化的可靠、与时俱进和领域定制化基准，来解决这些限制。我们通过使用最少的源文本复制7个不同的MMLU子集，已实现总推理成本低于15美元，同时完全保持了原始基准中观察到的模型性能排名（Spearman Rho = 1）。为了确保YourBench生成的数据基于提供的输入，而非依赖模型中的后验参数知识，我们还引入了Tempora-0325，这是一个包含超过7000个多样文档的新型数据集，专门在2025年3月之后发布。我们全面分析了来自7个主要家族中26个最先进模型（参数规模从3亿到6710亿不等）的数据，以通过严格的算法检查（例如，引文定位）和人工评估验证生成的评估的质量。我们发布了YourBench库、Tempora-0325数据集、基于Tempora的15万多个问答对以及所有评估和推理痕迹，以促进可重现研究，并使社区能够按需生成定制基准，从而促进更相关和值得信赖的LLM评估。