摘要
大型语言模型 (LLMs) 结合检索增强生成 (RAG) 为网络搜索带来了新的范式。然而,LLMs 的上下文感知能力有限,导致它们在 RAG 任务上的表现下降。现有的增强上下文感知方法通常效率低下,在推理过程中会产生时间或内存开销,而且许多方法都是针对特定的位置嵌入而设计的。本文提出了一种与位置嵌入无关的注意力重新加权 (PEAR) 方法,该方法无需推理开销即可增强 LLMs 的上下文感知能力。具体来说,在一个专注于上下文复制的代理任务中,我们首先检测出抑制模型上下文感知能力从而降低 RAG 性能的注意力头。为了减弱这些头的影响,我们使用可学习的系数对其输出进行重新加权。通过调整这些系数以最小化代理任务的损失,对 LLM(参数冻结)进行优化。结果,系数被优化到小于 1 的值,从而降低了它们抑制 RAG 性能的趋势。在推理过程中,无论任务如何,这些优化后的系数都会被固定以重新加权这些头。我们提出的 PEAR 方法与之前的方法相比具有两大优势:(1) 它在内存使用或推理时间方面不会引入额外的推理开销,同时在各种 RAG 任务上的准确性和效率方面都优于竞争基线。(2) 它独立于位置嵌入算法,确保更广泛的适用性。