LLM2D

摘要

大型语言模型（LLM）令人印象深刻的能力引发了人们的争论：这些模型是否真正能够泛化到未见的任务，或者主要依赖于记忆海量的预训练数据。为了探讨这个问题，我们引入了一个扩展的记忆概念——分布式记忆，它衡量LLM输出概率与预训练数据频率之间的相关性。为了有效地捕捉特定任务的预训练数据频率，我们提出了一种新颖的任务语法语言模型，该模型通过计算预训练语料库中来自任务输入和输出的语义相关n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型，我们评估了四个不同的任务：机器翻译、事实性问答、世界知识理解和数学推理。我们的研究结果揭示了不同程度的记忆效应，在事实性问答中观察到最强烈的效应。此外，虽然随着LLM规模的增加，所有任务的模型性能都得到了提高，但只有事实性问答显示出记忆效应的增加，而机器翻译和推理任务则表现出更大的泛化能力，产生了更多新颖的输出。这项研究表明，记忆在更简单、知识密集型任务中扮演着更大的角色，而泛化是更难、基于推理的任务的关键，它提供了一种可扩展的方法来更深入地分析大型预训练语料库。我们还通过一种新颖的提示优化算法展示了我们分析的实际意义。