摘要
近年来,基于检索的语言模型(RLMs)备受关注。然而,大多数模型都利用参数固定的预训练检索器,这可能无法很好地适应因果语言模型。在这项工作中,我们提出了分组交叉注意力机制,这是一个新的模块,能够实现检索器和因果语言模型的联合预训练,并将其应用于长上下文建模。对于给定的输入序列,我们将它分成多个片段,并使用当前片段来检索过去的片段以进行后续文本生成。我们的创新之处在于,检索器可以学习如何检索过去的片段,以端到端的方式更好地最小化后续令牌的自回归损失。通过整合前 $k$ 个检索结果,我们的模型可以从零开始进行高效的预训练,上下文长度可达 64K 个令牌。我们的实验表明,与长距离语言模型基线相比,我们的模型在保持可比或更低的预训练和推理成本的情况下,可以实现更低的困惑度。