摘要
过去十年,深度学习模型的泛化和适应能力通常在固定训练和测试分布上进行评估。与传统深度学习不同,大型语言模型 (LLMs) 具有以下特点:(i) 参数量更多,(ii) 在从互联网上收集的无标签文本语料库上进行训练,人类干预最少,(iii) 以在线方式进行训练。这些鲜明的对比阻碍了研究人员将深度学习环境中关于模型泛化和适应的经验教训迁移到 LLMs 上。为此,我们的简短论文介绍了一些旨在阐明预训练语言模型进一步训练的经验观察。具体而言,我们证明了在文本领域上训练模型可能会降低其在同一领域测试部分上的困惑度。我们通过后续分析观察到,性能下降与 LLM 的附加预训练数据集和原始预训练数据集之间的相似性呈正相关。我们进一步的令牌级困惑度观察表明,困惑度下降是由于少数几个对领域没有信息性的令牌造成的。我们希望这些发现能够指导我们确定何时适应模型,何时依赖其基础能力。