LLM2D
泛化与记忆:追溯语言模型能力的预训练数据来源
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data
作者: Xinyi Wang, Antonis Antoniades, Yanai Elazar, Alfonso Amayuelas, Alon Albalak, Kexun Zhang, William Yang Wang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2407.14985v2

摘要

大型语言模型(LLM)的强大能力引发了人们的争论,这些模型究竟是真正地泛化到未见过的任务,还是主要依赖于记忆大量预训练数据。为了探讨这个问题,我们引入了记忆的扩展概念,即分布式记忆,它衡量了LLM输出概率与预训练数据频率之间的相关性。为了有效地捕获特定任务的预训练数据频率,我们提出了一种新颖的任务语法语言模型,该模型通过统计预训练语料库中任务输入和输出中语义相关的n-gram对的共现次数来构建。使用在Pile数据集上训练的Pythia模型,我们评估了三个不同的任务:机器翻译、事实问答和推理。我们的发现揭示了不同程度的记忆,在事实问答中观察到最强的影响。此外,虽然模型性能在所有任务中随着LLM规模的增加而提高,但只有事实问答显示出记忆的增加,而机器翻译和推理任务则表现出更大的泛化能力,产生更多新颖的输出。这项研究表明,记忆在更简单、更依赖知识的任务中发挥着更大的作用,而泛化是更难、更依赖推理的任务的关键,为更深入地分析大型预训练语料库提供了一种可扩展的方法。