摘要
arXiv:2502.01754v1 宣布类型: cross
摘要:目前最先进的大规模语言模型依赖于随机化来响应提示。作为直接的结果,如果模型被多次询问相同的提示,其响应可能会不同。在本文中,我们argue应控制大型语言模型运行背后所依赖的随机化来进行评估和排名。我们的出发点是对耦合自回归生成进行因果建模,这使得不同大型语言模型能够使用相同来源的随机性来采样响应。基于我们的因果模型,我们首先表明,在基于基准数据集的评估中,耦合自回归生成与传统的自回归生成导致相同的结论,但使用了可证明更少的样本。然而,我们进一步表明,在基于(人类)成对比较的评估中,即使是无限数量的样本,耦合和传统的自回归生成也会出人意料地导致不同的排名。这表明,在现有评估协议中,一个模型相对于其他模型的显着优势可能并非真正的,而是由于生成过程固有的随机性所混淆的。为了说明并补充我们的理论结果,我们在Llama家族中的几个大型语言模型上进行了实验。我们发现,在流行的MMLU基准数据集中涉及多个知识领域的情况下,耦合自回归生成需要多达40%更少的样本来达到与传统的自回归生成相同的结论。此外,我们还使用LMSYS聊天机器人竞技场平台的数据发现,强大的大型语言模型对提示的胜利率在耦合和传统的自回归生成下是不同的。