LLM2D

摘要

我们提出了一种名为“块注意力”的注意力机制，旨在解决检索增强生成 (RAG) 场景中推理延迟增加的问题。其主要思想是将输入序列划分为多个块，每个块独立计算其键值 (KV) 状态，最后一个块除外。在 RAG 场景中，通过将每个段落定义为一个块，“块注意力”使我们能够预先计算所有段落的 KV 状态并将其缓存到内存中。实现涉及块分割、位置编码计算以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明，在块微调后，“块注意力”模型可以实现与自注意力模型相当 (Llama3 上为 68.4% 对比 67.9%) 或甚至更好的性能 (Mistral 上为 62.8% 对比 59.6%)。值得注意的是，“块注意力”将 TTFT 降低到非常低的水平。对于总长度为 32K 的输入序列，它只需要 45 毫秒即可输出第一个标记。与自注意力模型相比，时间消耗降低了 98.7%。