LLM2D
低延迟检索增强生成中的块注意力机制
Block-Attention for Low-Latency RAG
发布日期: 9/25/2024
arXiv ID: oai:arXiv.org:2409.15355v1

摘要

我们提出了一种名为“块注意力”的注意力机制,旨在解决检索增强生成 (RAG) 场景中推理延迟增加的问题。其主要思想是将输入序列划分为多个块,每个块独立计算其键值 (KV) 状态,最后一个块除外。在 RAG 场景中,通过将每个段落定义为一个块,“块注意力”使我们能够预先计算所有段落的 KV 状态并将其缓存到内存中。实现涉及块分割、位置编码计算以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明,在块微调后,“块注意力”模型可以实现与自注意力模型相当 (Llama3 上为 68.4% 对比 67.9%) 或甚至更好的性能 (Mistral 上为 62.8% 对比 59.6%)。值得注意的是,“块注意力”将 TTFT 降低到非常低的水平。对于总长度为 32K 的输入序列,它只需要 45 毫秒即可输出第一个标记。与自注意力模型相比,时间消耗降低了 98.7%。