摘要
大型语言模型最初在有限的上下文长度下进行预训练,可以通过在扩展上下文的语料库上继续训练来更好地处理更长的文本。然而,由于不同领域中长文档的稀缺性和分布不均,获取有效的长上下文数据具有挑战性。为了解决这个问题,我们提出了一种以查询为中心的**数据合成**方法,简称**Quest**。Quest 是一种可解释的方法,基于这样的观察:由类似查询检索到的文档是相关的,但冗余度低,因此非常适合合成长上下文数据。该方法也具有可扩展性,能够构建大量长上下文数据。利用 Quest,我们合成了一个长达 128k 上下文长度的长上下文数据集,在多个长上下文基准数据集上显著优于其他数据合成方法。此外,我们通过**扩展定律**实验进一步验证了 Quest 方法的可预测性,使其成为推动长上下文模型发展的可靠解决方案。