摘要
大型语言模型(LLM)令人印象深刻的能力引发了人们的争论:这些模型是否真正能够泛化到未见的任务,或者主要依赖于记忆海量的预训练数据。为了探讨这个问题,我们引入了一个扩展的记忆概念——分布式记忆,它衡量LLM输出概率与预训练数据频率之间的相关性。为了有效地捕捉特定任务的预训练数据频率,我们提出了一种新颖的任务语法语言模型,该模型通过计算预训练语料库中来自任务输入和输出的语义相关n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型,我们评估了四个不同的任务:机器翻译、事实性问答、世界知识理解和数学推理。我们的研究结果揭示了不同程度的记忆效应,在事实性问答中观察到最强烈的效应。此外,虽然随着LLM规模的增加,所有任务的模型性能都得到了提高,但只有事实性问答显示出记忆效应的增加,而机器翻译和推理任务则表现出更大的泛化能力,产生了更多新颖的输出。这项研究表明,记忆在更简单、知识密集型任务中扮演着更大的角色,而泛化是更难、基于推理的任务的关键,它提供了一种可扩展的方法来更深入地分析大型预训练语料库。我们还通过一种新颖的提示优化算法展示了我们分析的实际意义。