LLM2D

摘要

大型语言模型（LLM）的强大能力引发了人们的争论，这些模型究竟是真正地泛化到未见过的任务，还是主要依赖于记忆大量预训练数据。为了探讨这个问题，我们引入了记忆的扩展概念，即分布式记忆，它衡量了LLM输出概率与预训练数据频率之间的相关性。为了有效地捕获特定任务的预训练数据频率，我们提出了一种新颖的任务语法语言模型，该模型通过统计预训练语料库中任务输入和输出中语义相关的n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型，我们评估了三个不同的任务：机器翻译、事实问答和推理。我们的发现揭示了不同程度的记忆，在事实问答中观察到最强的影响。此外，虽然模型性能在所有任务中随着LLM规模的增加而提高，但只有事实问答显示出记忆的增加，而机器翻译和推理任务则表现出更大的泛化能力，产生更多新颖的输出。这项研究表明，记忆在更简单、更依赖知识的任务中发挥着更大的作用，而泛化是更难、更依赖推理的任务的关键，为更深入地分析大型预训练语料库提供了一种可扩展的方法。