摘要
我们提出了 MMLU-SR,一个新颖的数据集,旨在通过挑战大型语言模型 (LLM) 在问答任务中的表现来衡量其真正的理解能力,方法是使用修改后的术语。我们认为,一个“真正”理解一个概念的代理,即使关键术语被适当定义的替代术语替换,也能对其进行评估,并试图将这种理解与简单的文本替换区分开来。在我们的研究中,我们通过用一个虚拟词及其定义替换关键术语来修改标准化测试问题。关键术语可能出现在问题的语境中、答案中,或问题和答案中。尽管最近流行的 LLM 在 MMLU 排行榜上取得了高分,但我们发现,在进行这种替换后,模型的性能大幅下降,这表明其理解能力很差。这个新的基准为测试模型的真实理解能力提供了一个严格的标准,并对更广泛的科学界提出了挑战。