LLM2D

摘要

近年来，基于检索的语言模型（RLMs）备受关注。然而，大多数模型都利用参数固定的预训练检索器，这可能无法很好地适应因果语言模型。在这项工作中，我们提出了分组交叉注意力机制，这是一个新的模块，能够实现检索器和因果语言模型的联合预训练，并将其应用于长上下文建模。对于给定的输入序列，我们将它分成多个片段，并使用当前片段来检索过去的片段以进行后续文本生成。我们的创新之处在于，检索器可以学习如何检索过去的片段，以端到端的方式更好地最小化后续令牌的自回归损失。通过整合前 $k$ 个检索结果，我们的模型可以从零开始进行高效的预训练，上下文长度可达 64K 个令牌。我们的实验表明，与长距离语言模型基线相比，我们的模型在保持可比或更低的预训练和推理成本的情况下，可以实现更低的困惑度。