LLM2D

摘要

我们提出了一种名为“块注意力”的注意力机制，旨在解决检索增强生成 (RAG) 场景中推理延迟和成本增加的问题。传统方法通常对整个上下文进行编码。相反，“块注意力”将检索到的文档划分为离散的块，每个块独立计算键值 (KV) 状态，除了最后一个块。在 RAG 场景中，通过将每个段落定义为一个块，“块注意力”使我们能够重复使用之前看到的段落的 KV 状态，从而在推理过程中显著降低延迟和计算开销。“块注意力”的实现包括块分割、位置重新编码以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明，在块微调之后，“块注意力”模型实现了与自注意力模型相当的性能（Llama3 上为 68.4% 对 67.9%），甚至表现出更优的性能（Mistral 上为 62.8% 对 59.6%）。值得注意的是，“块注意力”显著降低了第一个 token 的时间 (TTFT) 和浮点运算 (FLOPs) 至极低水平。对于总长度为 32K 的输入序列，它只需要 45 毫秒即可输出第一个 token。与自注意力模型相比，时间消耗和相应的 FLOPs 分别降低了 98.7% 和 99.8%。