LLM2D
仅使用反应性注意力切片进行长上下文检索
You Only Use Reactive Attention Slice For Long Context Retrieval
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.13695v1

摘要

支持大型语言模型(LLM)处理更长上下文是一个有前景的方向,以推动LLM的发展。由于为更长上下文窗口训练模型在计算上非常昂贵,许多替代解决方案,如检索增强生成(RAG),已被采用。然而,大多数现有的RAG方法采用基于嵌入的检索,在处理长上下文时表现不佳。为了应对这些挑战,我们提出了一种基于注意力的检索技术,称为“你只使用反应性注意力切片”(YOURA)。YOURA利用一种称为反应分数的新颖检索启发式方法,来评估输入上下文中每个句子与查询句子的相关性。直观地说,我们测量每个标记的注意力分数对查询的“反应”,并贪婪地检索最具反应性的句子。在内部,YOURA为整个输入上下文生成一个标记索引向量(称为反应向量)。为了将每个句子映射到标记索引向量,我们提出了一种嵌入无关的句子生成(EASY),这是一种尽力而为的标记微调算法。我们在三个开源预训练的LLM模型上,对六个LongBench QA数据集评估了我们的检索技术。我们的技术在处理长上下文查询时,实现了高达30%的vLLM推理吞吐量提升,且质量评分与简单而有效的截断中间方法几乎相同。