摘要
在大型、无结构的互联网文本上进行预训练使语言模型能够获得大量的世界知识。然而,这种知识获取效率低下——为了学习一个给定的事实,模型必须在数百到数千个不同的表示上进行训练。当将预训练模型适应到一个小型特定领域文档语料库时,这会带来挑战,因为每个事实可能很少出现,或者只出现一次。我们提出使用合成继续预训练来弥合这一差距:利用小型特定领域语料库来合成一个更适合学习的大型语料库,然后在合成语料库上进行继续预训练。我们使用 EntiGraph 来具体实现这个提议,EntiGraph 是一种合成数据增强算法,它从源文档中提取显著的实体,然后通过在采样实体之间建立联系来生成不同的文本。使用 EntiGraph 进行合成继续预训练使语言模型能够在不访问源文档的情况下,回答与源文档相关的问题并遵循通用指令。如果在推理时可以使用源文档,我们证明了通过我们的方法获得的知识会与检索增强生成相结合。为了更好地理解这些结果,我们构建了一个简单的 EntiGraph 数学模型,并展示了合成数据增强如何“重新排列”知识,从而实现更有效的数据学习。