LLM2D

摘要

支持大型语言模型（LLM）处理更长上下文是一个有前景的方向，以推动LLM的发展。由于为更长上下文窗口训练模型在计算上非常昂贵，许多替代解决方案，如检索增强生成（RAG），已被采用。然而，大多数现有的RAG方法采用基于嵌入的检索，在处理长上下文时表现不佳。为了应对这些挑战，我们提出了一种基于注意力的检索技术，称为“你只使用反应性注意力切片”（YOURA）。YOURA利用一种称为反应分数的新颖检索启发式方法，来评估输入上下文中每个句子与查询句子的相关性。直观地说，我们测量每个标记的注意力分数对查询的“反应”，并贪婪地检索最具反应性的句子。在内部，YOURA为整个输入上下文生成一个标记索引向量（称为反应向量）。为了将每个句子映射到标记索引向量，我们提出了一种嵌入无关的句子生成（EASY），这是一种尽力而为的标记微调算法。我们在三个开源预训练的LLM模型上，对六个LongBench QA数据集评估了我们的检索技术。我们的技术在处理长上下文查询时，实现了高达30%的vLLM推理吞吐量提升，且质量评分与简单而有效的截断中间方法几乎相同。