LLM2D

摘要

大型语言模型 (LLM) 的最新进展凸显了扩展上下文长度以处理复杂任务的重要性。虽然传统的长上下文训练方法通常使用经过过滤的长文档，但这些方法会导致领域不平衡，从而限制模型性能。为了解决这个问题，已经开发出诸如随机文档拼接（标准方法）和基于相似性的方法（KNN、ICLM）等技术。然而，这些方法要么牺牲语义连贯性，要么牺牲多样性。为了平衡这两个方面，我们引入了 Quest，这是一种以查询为中心的的数据合成方法，它聚合语义相关且多样化的文档。Quest 使用生成模型来预测每个文档的潜在查询，将具有相似查询和关键词的文档分组。大量的实验表明，Quest 在长上下文任务上具有优越的性能，在长达 100 万个 token 的上下文长度下取得了显著的成果，并证实了其在各种模型规模上的可扩展性。