摘要
大型语言模型 (LLM) 的最新进展凸显了扩展上下文长度以处理复杂任务的重要性。虽然传统的长上下文训练方法通常使用经过过滤的长文档,但这些方法会导致领域不平衡,从而限制模型性能。为了解决这个问题,已经开发出诸如随机文档拼接(标准方法)和基于相似性的方法(KNN、ICLM)等技术。然而,这些方法要么牺牲语义连贯性,要么牺牲多样性。为了平衡这两个方面,我们引入了 Quest,这是一种以查询为中心的的数据合成方法,它聚合语义相关且多样化的文档。Quest 使用生成模型来预测每个文档的潜在查询,将具有相似查询和关键词的文档分组。大量的实验表明,Quest 在长上下文任务上具有优越的性能,在长达 100 万个 token 的上下文长度下取得了显著的成果,并证实了其在各种模型规模上的可扩展性。