摘要
arXiv:2504.09522v1 交叉类型: cross
摘要: 大型语言模型通过梯度更新的累积学习并不断学习,但新的信息片段如何影响现有知识,导致有益的泛化和问题性的幻觉,目前仍理解不足。我们展示了当学习新信息时,LLMs表现出一种“预处理”效果:学习一个新的事实可能会导致模型在不相关的上下文中误用这些知识。为了系统地研究这一现象,我们引入了“奇特”这一精心编纂的数据集,包含1320个多样化的文本样本,旨在探究新知识如何渗透到LLM现有的知识库中。通过使用这一数据集,我们展示了学习新信息后的预处理程度可以通过测量学习前关键词的token概率来预测。这种关系在不同的模型架构(PALM-2、Gemma、Llama)、规模和训练阶段中都表现出高度的稳健性。最后,我们开发了两种新的方法来调节新知识对现有模型行为的影响:(1) 一种“跳板”文本增强策略和(2) 一种“忽略-k”更新修剪方法。这些方法通过减少50-95%的不希望出现的预处理效果,同时保留模型学习新信息的能力。我们的研究结果为我们如何理解LLMs的学习提供了实证见解,并提供了改进语言模型知识插入特异性的实用工具。更多资料: https://sunchipsster1.github.io/projects/outlandish/