摘要
arXiv:2502.01754v1 类别: cross
摘要:当前最先进的大型语言模型依赖于随机化来响应提示。作为直接的结果,同一提示在一个模型中如果被多次询问,可能会得到不同的响应。在本文中,我们主张在评估和排名大型语言模型时应控制其运行所依赖的随机化。我们的起点是开发一个耦合自回归生成的因果模型,这使得不同的大型语言模型能够使用相同的随机源采样响应。基于我们的因果模型,我们首先展示,在基于基准数据集的评估中,耦合自回归生成与传统的自回归生成得出相同的结论,但使用可证明较少的样本。然而,我们进一步展示,在基于人工两两比较的评估中,即使样本无限多,耦合和传统的自回归生成仍然可能会导致不同模型的排名存在差异。这表明,在现有的评估协议中,一个模型相对于其他模型的表面优势可能并非 genuine,而是由于生成过程中固有的随机性造成的。为了证实和支持我们的理论结果,我们使用了来自 Llama 家族的几个大型语言模型进行了实验。我们发现,在流行的 MMLU 基准数据集中涉及的多个知识领域,耦合自回归生成相比于传统的自回归生成需要多达40%更少的样本来得出相同的结论。此外,使用 LMSYS Chatbot Arena 平台的数据,我们发现,一个强大的大型语言模型对提示的两两比较得到的胜率在耦合和传统的自回归生成中有所不同。