LLM2D
用于高效检索式问答的块注意力机制
Block-Attention for Efficient RAG
作者: East Sun, Yan Wang, Lan Tian
发布日期: 10/2/2024
arXiv ID: oai:arXiv.org:2409.15355v3

摘要

我们提出了一种名为“块注意力”的注意力机制,旨在解决检索增强生成 (RAG) 场景中推理延迟和成本增加的问题。传统方法通常对整个上下文进行编码。相反,“块注意力”将检索到的文档划分为离散的块,每个块独立计算键值 (KV) 状态,除了最后一个块。在 RAG 场景中,通过将每个段落定义为一个块,“块注意力”使我们能够重复使用之前看到的段落的 KV 状态,从而在推理过程中显著降低延迟和计算开销。“块注意力”的实现包括块分割、位置重新编码以及微调 LLM 以适应“块注意力”机制。在四个 RAG 基准上的实验表明,在块微调之后,“块注意力”模型实现了与自注意力模型相当的性能(Llama3 上为 68.4% 对 67.9%),甚至表现出更优的性能(Mistral 上为 62.8% 对 59.6%)。值得注意的是,“块注意力”显著降低了第一个 token 的时间 (TTFT) 和浮点运算 (FLOPs) 至极低水平。对于总长度为 32K 的输入序列,它只需要 45 毫秒即可输出第一个 token。与自注意力模型相比,时间消耗和相应的 FLOPs 分别降低了 98.7% 和 99.8%。