LLM2D

摘要

arXiv:2410.10450v2 公告类型: 替换摘要: 在本文中，我们提出了知识库增强语言模型（KBLaM），这是一种将外部知识增强大型语言模型（LLMs）的新方法。KBLaM 使用从文档集合构建的知识库（KB），通过预训练的句子编码器和线性适配器将 KB 中的每一条知识转化为连续的键值向量对，并通过专门的矩形注意力机制将它们集成到预训练的 LLMs 中。与检索增强生成不同，KBLaM 消除了外部检索模块；与上下文学习不同，其计算开销随着 KB 大小线性增长而不是平方增长。我们的方法使我们能够在一个单一的 A100 80GB GPU 上将包含超过 10K 三元组的大型 KB 集成到仅 8K 上下文窗口的 8B 预训练 LLM 中，并且在不需要模型微调或重新训练的情况下支持动态更新。实验表明，KBLaM 在包括问答和开放式推理在内的各种任务中都非常有效，同时还能提供其使用增强知识的可解释见解。有关代码和数据集，请参阅 https://github.com/microsoft/KBLaM/