LLM2D
关于线性表示和语言模型中预训练数据频率的研究
On Linear Representations and Pretraining Data Frequency in Language Models
作者: Jack Merullo, Noah A. Smith, Sarah Wiegreffe, Yanai Elazar
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2504.12459v1

摘要

arXiv:2504.12459v1 交叉公告类型 摘要:预训练数据直接影响语言模型(LMs)的行为和质量,但我们仅理解这种关系的基本原理。虽然大部分工作集中于预训练数据对下游任务行为的影响,但我们研究了它与LM表示之间的关系。先前的研究发现,在语言模型中,有些概念以“线性”的方式编码在表示中,但这些表示是如何形成的?我们研究了预训练数据频率与模型对事实关系的线性表示之间的连接。我们发现,线性表示的形成与预训练词频之间存在强烈关联;特别是对于主语-关系-宾语事实三元组,主语-宾语共现频率以及上下文中的学习准确性与线性表示高度相关。这一现象在预训练的所有阶段都存在。在OLMo-7B和GPT-J中,我们发现当关系中的主语和宾语共现至少1000次和2000次时(无论这些共现何时发生在预训练中),线性表示会一致形成(但并非总是如此)。最后,我们在完全训练的语言模型上训练了一个预测线性表示质量的回归模型,以预测某种词在预训练中的出现频率。我们的模型即使在来自具有不同预训练数据集的其他模型的输入上也能实现低误差,提供了估计封闭数据模型的先前未知训练数据属性的新方法。我们得出结论,语言模型中线性表示的强度包含了关于模型预训练语料库的信号,这可能为控制和改进模型行为提供新的途径:特别地,通过调整模型的训练数据以满足特定频率阈值来操控它们的行为。